論文の概要: Empirical Cumulative Distribution Function Clustering for LLM-based Agent System Analysis
- arxiv url: http://arxiv.org/abs/2602.16131v1
- Date: Wed, 18 Feb 2026 01:49:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.486647
- Title: Empirical Cumulative Distribution Function Clustering for LLM-based Agent System Analysis
- Title(参考訳): LLMエージェントシステム解析のための経験的累積分布関数クラスタリング
- Authors: Chihiro Watanabe, Jingyu Sun,
- Abstract要約: 生成した応答と参照応答のコサイン類似性の経験的累積分布関数(ECDF)に基づく新しい評価フレームワークを提案する。
QAデータセットを用いた実験により、ECDFはエージェント設定を類似の最終的な精度で区別できるが、品質分布は異なることが示された。
- 参考スコア(独自算出の注目度): 3.8908016393731533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used as agents to solve complex tasks such as question answering (QA), scientific debate, and software development. A standard evaluation procedure aggregates multiple responses from LLM agents into a single final answer, often via majority voting, and compares it against reference answers. However, this process can obscure the quality and distributional characteristics of the original responses. In this paper, we propose a novel evaluation framework based on the empirical cumulative distribution function (ECDF) of cosine similarities between generated responses and reference answers. This enables a more nuanced assessment of response quality beyond exact match metrics. To analyze the response distributions across different agent configurations, we further introduce a clustering method for ECDFs using their distances and the $k$-medoids algorithm. Our experiments on a QA dataset demonstrate that ECDFs can distinguish between agent settings with similar final accuracies but different quality distributions. The clustering analysis also reveals interpretable group structures in the responses, offering insights into the impact of temperature, persona, and question topics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、質問応答(QA)、科学的議論、ソフトウェア開発といった複雑な課題を解決するエージェントとして、ますます使われてきている。
標準的な評価手順は、LLMエージェントからの複数の応答を単一の最終回答に集約し、多くの場合多数決によって参照された回答と比較する。
しかし、このプロセスは、元の応答の品質と分布特性を曖昧にすることができる。
本稿では,生成した応答と参照応答のコサイン類似性の実証累積分布関数(ECDF)に基づく新しい評価フレームワークを提案する。
これにより、正確なマッチングメトリクス以上の応答品質のより微妙な評価が可能になる。
エージェント構成の異なる応答分布を解析するために,その距離と$k$-medoidsアルゴリズムを用いてECDFのクラスタリング手法を導入する。
QAデータセットを用いた実験により、ECDFはエージェント設定を類似の最終的な精度で区別できるが、品質分布は異なることが示された。
クラスタリング分析はまた、応答における解釈可能なグループ構造を明らかにし、温度、ペルソナ、質問トピックの影響についての洞察を提供する。
関連論文リスト
- Cognitively Diverse Multiple-Choice Question Generation: A Hybrid Multi-Agent Framework with Large Language Models [4.155649113742267]
ReQUESTAは認知学的に多様な多目的質問(MCQ)を生成するためのハイブリッドマルチエージェントフレームワークである
本研究では,学術論文を用いた大規模読解学習における枠組みの評価を行った。
その結果、ReQUESTA生成項目は、より困難であり、差別的であり、全体的な読解能力と強く一致していることがわかった。
論文 参考訳(メタデータ) (2026-02-03T16:26:47Z) - JAF: Judge Agent Forest [8.150475950851359]
JAF:ジャッジエージェントフォレスト(JAF: Judge Agent Forest)は、判定エージェントがクエリ応答ペアのコホートを越えて共同推論を行うフレームワークである。
セマンティックな埋め込みを組み込んで情報的バイナリコードを学ぶフレキシブルな局所性に敏感なハッシュアルゴリズムを開発した。
我々は,大規模クラウド環境におけるクラウド構成ミストリアージの要求タスクに関する実証的研究により,JAFを検証した。
論文 参考訳(メタデータ) (2026-01-29T19:42:42Z) - HypoGeneAgent: A Hypothesis Language Agent for Gene-Set Cluster Resolution Selection Using Perturb-seq Datasets [9.465853880657487]
大規模な単一細胞とPerturb-seqの研究は、通常、クラスタリング細胞に関係している。
本稿では,大規模言語モデル(LLM)駆動のフレームワークであるHYPOGENEAGENTを,クラスタアノテーションを定量的に最適化可能なタスクに変換する。
論文 参考訳(メタデータ) (2025-09-10T22:25:33Z) - ELOQ: Resources for Enhancing LLM Detection of Out-of-Scope Questions [52.33835101586687]
本研究では,検索した文書が意味的に類似しているように見えるスコープ外質問について検討するが,答えるために必要な情報がない。
本稿では,閉経後の文書から多様なスコープ外質問を自動的に生成するための,幻覚に基づくELOQを提案する。
論文 参考訳(メタデータ) (2024-10-18T16:11:29Z) - Evaluating the Efficacy of Foundational Models: Advancing Benchmarking Practices to Enhance Fine-Tuning Decision-Making [1.3812010983144802]
本研究は,サイバーセキュリティ,医療,金融など多種多様な分野にわたる言語モデル(LLM)を評価する。
その結果,モデルサイズと推論に用いるプロンプトの種類は応答長と品質に大きく影響した。
論文 参考訳(メタデータ) (2024-06-25T20:52:31Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - MQAG: Multiple-choice Question Answering and Generation for Assessing
Information Consistency in Summarization [55.60306377044225]
最先端の要約システムは高度に流動的な要約を生成することができる。
しかし、これらの要約には、情報源に存在しない事実上の矛盾や情報が含まれている可能性がある。
本稿では,ソース情報と要約情報を直接比較する,標準的な情報理論に基づく代替手法を提案する。
論文 参考訳(メタデータ) (2023-01-28T23:08:25Z) - Query Focused Multi-Document Summarization with Distant Supervision [88.39032981994535]
既存の作業は、クエリとテキストセグメント間の関連性を推定する検索スタイルの手法に大きく依存している。
本稿では,クエリに関連するセグメントを推定するための個別モジュールを導入した粗大なモデリングフレームワークを提案する。
我々のフレームワークは、標準QFSベンチマークにおいて、強力な比較システムよりも優れていることを実証する。
論文 参考訳(メタデータ) (2020-04-06T22:35:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。