論文の概要: Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey
- arxiv url: http://arxiv.org/abs/2503.22458v1
- Date: Fri, 28 Mar 2025 14:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-31 15:32:32.486716
- Title: Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey
- Title(参考訳): マルチスレッド対話のためのLLMエージェントの評価:サーベイ
- Authors: Shengyue Guan, Haoyi Xiong, Jindong Wang, Jiang Bian, Bin Zhu, Jian-guang Lou,
- Abstract要約: 本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
- 参考スコア(独自算出の注目度): 64.08485471150486
- License:
- Abstract: This survey examines evaluation methods for large language model (LLM)-based agents in multi-turn conversational settings. Using a PRISMA-inspired framework, we systematically reviewed nearly 250 scholarly sources, capturing the state of the art from various venues of publication, and establishing a solid foundation for our analysis. Our study offers a structured approach by developing two interrelated taxonomy systems: one that defines \emph{what to evaluate} and another that explains \emph{how to evaluate}. The first taxonomy identifies key components of LLM-based agents for multi-turn conversations and their evaluation dimensions, including task completion, response quality, user experience, memory and context retention, as well as planning and tool integration. These components ensure that the performance of conversational agents is assessed in a holistic and meaningful manner. The second taxonomy system focuses on the evaluation methodologies. It categorizes approaches into annotation-based evaluations, automated metrics, hybrid strategies that combine human assessments with quantitative measures, and self-judging methods utilizing LLMs. This framework not only captures traditional metrics derived from language understanding, such as BLEU and ROUGE scores, but also incorporates advanced techniques that reflect the dynamic, interactive nature of multi-turn dialogues.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
PRISMAにインスパイアされたフレームワークを用いて、250近い学術資料を体系的にレビューし、出版現場から最先端の情報を収集し、分析のための確かな基盤を確立した。
本研究は,<emph{What to evaluate} と<emph{how to evaluate} の2つの分類体系を構築することによって,構造的アプローチを提供する。
最初の分類法では、マルチターン会話のためのLLMベースのエージェントのキーコンポーネントと、タスク完了、応答品質、ユーザエクスペリエンス、メモリとコンテキストの保持、プランニングとツール統合など、それらの評価次元を識別する。
これらのコンポーネントは、会話エージェントのパフォーマンスが全体的かつ意味のある方法で評価されることを保証する。
第2の分類体系は評価手法に焦点を当てている。
アプローチをアノテーションに基づく評価、自動メトリクス、人間の評価と定量的尺度を組み合わせたハイブリッド戦略、LLMを用いた自己判断手法に分類する。
このフレームワークは、BLEUやROUGEスコアなどの言語理解から派生した伝統的なメトリクスをキャプチャするだけでなく、マルチターン対話の動的でインタラクティブな性質を反映する高度なテクニックも取り入れている。
関連論文リスト
- Bridging the Evaluation Gap: Leveraging Large Language Models for Topic Model Evaluation [0.0]
本研究では,Large Language Models (LLMs) を用いた科学文献における動的に進化するトピックの自動評価のための枠組みを提案する。
提案手法は,専門家のアノテータや狭義の統計指標に大きく依存することなく,コヒーレンス,反復性,多様性,トピック文書のアライメントといった重要な品質次元を測定するためにLLMを利用する。
論文 参考訳(メタデータ) (2025-02-11T08:23:56Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Should We Fine-Tune or RAG? Evaluating Different Techniques to Adapt LLMs for Dialogue [1.8652965834931452]
本研究では,人間と機械の対話における応答生成作業におけるLarge Language Models (LLMs) の限界について検討する。
我々は,異なる対話型に適用する場合に,異なるLLM適応手法を広範囲に分析する。
論文 参考訳(メタデータ) (2024-06-10T15:52:49Z) - SLIDE: A Framework Integrating Small and Large Language Models for Open-Domain Dialogues Evaluation [23.203761925540736]
対話評価のためのフレームワークSLIDE(Small and Large Integrated for Dialogue Evaluation)を提案する。
本手法は, 分類タスクと評価タスクの両方において最先端のパフォーマンスを達成し, また, SLIDEは人的評価器との相関性も良好である。
論文 参考訳(メタデータ) (2024-05-24T20:32:49Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - FCC: Fusing Conversation History and Candidate Provenance for Contextual
Response Ranking in Dialogue Systems [53.89014188309486]
複数のチャネルからコンテキスト情報を統合できるフレキシブルなニューラルネットワークフレームワークを提案する。
会話応答ランキングタスクの評価に広く用いられているMSDialogデータセット上で,本モデルの評価を行った。
論文 参考訳(メタデータ) (2023-03-31T23:58:28Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。