論文の概要: The Behavior Gap: Evaluating Zero-shot LLM Agents in Complex Task-Oriented Dialogs
- arxiv url: http://arxiv.org/abs/2506.12266v1
- Date: Fri, 13 Jun 2025 22:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:45.607769
- Title: The Behavior Gap: Evaluating Zero-shot LLM Agents in Complex Task-Oriented Dialogs
- Title(参考訳): 複雑なタスク指向ダイアログにおけるゼロショットLDMエージェントの評価
- Authors: Avinash Baidya, Kamalika Das, Xiang Gao,
- Abstract要約: 本研究では,AIエージェントと人間専門家の行動ギャップを定量化する包括的評価フレームワークを提案する。
以上の結果から,この行動ギャップはLLM剤の性能に悪影響を及ぼす重要な要因であることが明らかとなった。
我々の研究で最も複雑な課題は、GPT-4oをベースとしたエージェントでさえ、人間の行動との整合性が低いことである。
- 参考スコア(独自算出の注目度): 8.581146564012856
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Model (LLM)-based agents have significantly impacted Task-Oriented Dialog Systems (TODS) but continue to face notable performance challenges, especially in zero-shot scenarios. While prior work has noted this performance gap, the behavioral factors driving the performance gap remain under-explored. This study proposes a comprehensive evaluation framework to quantify the behavior gap between AI agents and human experts, focusing on discrepancies in dialog acts, tool usage, and knowledge utilization. Our findings reveal that this behavior gap is a critical factor negatively impacting the performance of LLM agents. Notably, as task complexity increases, the behavior gap widens (correlation: 0.963), leading to a degradation of agent performance on complex task-oriented dialogs. For the most complex task in our study, even the GPT-4o-based agent exhibits low alignment with human behavior, with low F1 scores for dialog acts (0.464), excessive and often misaligned tool usage with a F1 score of 0.139, and ineffective usage of external knowledge. Reducing such behavior gaps leads to significant performance improvement (24.3% on average). This study highlights the importance of comprehensive behavioral evaluations and improved alignment strategies to enhance the effectiveness of LLM-based TODS in handling complex tasks.
- Abstract(参考訳): 大規模言語モデル(LLM)ベースのエージェントはタスク指向ダイアログシステム(TODS)に大きな影響を与えているが、特にゼロショットシナリオでは注目すべきパフォーマンス課題に直面し続けている。
以前の作業では、このパフォーマンスギャップが指摘されていたが、パフォーマンスギャップを駆動する行動要因は、まだ解明されていないままである。
本研究では,AIエージェントと人間専門家の行動ギャップを定量化するための総合評価フレームワークを提案する。
以上の結果から,この行動ギャップはLLM剤の性能に悪影響を及ぼす重要な要因であることが明らかとなった。
特に、タスクの複雑さが増大するにつれて、行動ギャップが拡大し(相関:0.963)、複雑なタスク指向のダイアログ上でのエージェントのパフォーマンスが低下する。
我々の研究で最も複雑な課題は、GPT-4oをベースとしたエージェントでさえ、ダイアログ行動のF1スコアが低い(0.464)こと、F1スコアが0.139で過度に不整合するツールの使用、外部知識の効果的な使用など、人間の行動との整合性が低いことである。
このような動作ギャップを減らすことで、パフォーマンスが大幅に向上する(平均24.3%)。
本研究では,LLMに基づく複雑なタスク処理におけるTODSの有効性を高めるために,包括的行動評価の重要性とアライメント戦略の改善を強調した。
関連論文リスト
- How Memory Management Impacts LLM Agents: An Empirical Study of Experience-Following Behavior [49.62361184944454]
メモリは、大きな言語モデル(LLM)ベースのエージェントにおいて重要なコンポーネントである。
メモリ管理の選択がLLMエージェントの行動,特に長期的パフォーマンスに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-21T22:35:01Z) - Evaluations at Work: Measuring the Capabilities of GenAI in Use [28.124088786766965]
現在のAIベンチマークは、人間とAIのコラボレーションの混乱したマルチターンの性質を見逃している。
実世界のタスクを相互依存サブタスクに分解する評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-15T23:06:23Z) - Interactive Agents to Overcome Ambiguity in Software Engineering [61.40183840499932]
AIエージェントは、あいまいで不明確なユーザー指示に基づいて、タスクを自動化するためにますますデプロイされている。
不安定な仮定をし、明確な質問をしないことは、最適以下の結果につながる可能性がある。
対話型コード生成設定において,LLMエージェントが不明瞭な命令を処理する能力について,プロプライエタリモデルとオープンウェイトモデルを評価して検討する。
論文 参考訳(メタデータ) (2025-02-18T17:12:26Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - OPEx: A Component-Wise Analysis of LLM-Centric Agents in Embodied
Instruction Following [38.99303334457817]
EIF(Embodied Instruction following)は、自然言語の指示を満たすために、エージェントが自我中心の観察を通して環境と対話することを要求する、実践的な学習において重要なタスクである。
近年,大規模な言語モデル(LLM)をフレームワーク中心のアプローチで採用し,EDFの性能向上が図られている。
EIFタスクの解決に不可欠なコアコンポーネント(Observer、Planner、Executor)を記述した包括的なフレームワークであるOPExを紹介します。
論文 参考訳(メタデータ) (2024-03-05T14:53:53Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z) - AntEval: Evaluation of Social Interaction Competencies in LLM-Driven
Agents [65.16893197330589]
大規模言語モデル(LLM)は、幅広いシナリオで人間の振る舞いを再現する能力を示した。
しかし、複雑なマルチ文字のソーシャルインタラクションを扱う能力については、まだ完全には研究されていない。
本稿では,新しいインタラクションフレームワークと評価手法を含むマルチエージェントインタラクション評価フレームワーク(AntEval)を紹介する。
論文 参考訳(メタデータ) (2024-01-12T11:18:00Z) - Task-Agnostic Continual Reinforcement Learning: Gaining Insights and
Overcoming Challenges [27.474011433615317]
連続学習(CL)は、一連のタスクから学習するモデルやエージェントの開発を可能にする。
タスクに依存しないCLとマルチタスク(MTL)エージェントのパフォーマンス差に寄与する要因について検討する。
論文 参考訳(メタデータ) (2022-05-28T17:59:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。