論文の概要: CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions
- arxiv url: http://arxiv.org/abs/2505.18878v1
- Date: Sat, 24 May 2025 21:33:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.71598
- Title: CRMArena-Pro: Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions
- Title(参考訳): CRMArena-Pro:多様なビジネスシナリオとインタラクションにおけるLCMエージェントの全体的評価
- Authors: Kung-Hsiang Huang, Akshara Prabhakar, Onkar Thorat, Divyansh Agarwal, Prafulla Kumar Choubey, Yixin Mao, Silvio Savarese, Caiming Xiong, Chien-Sheng Wu,
- Abstract要約: CRMArena-Proは、多種多様なプロフェッショナル環境でのLLMエージェントの総合的で現実的な評価のための新しいベンチマークである。
多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションが組み込まれている。
実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
- 参考スコア(独自算出の注目度): 85.88573535033406
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: While AI agents hold transformative potential in business, effective performance benchmarking is hindered by the scarcity of public, realistic business data on widely used platforms. Existing benchmarks often lack fidelity in their environments, data, and agent-user interactions, with limited coverage of diverse business scenarios and industries. To address these gaps, we introduce CRMArena-Pro, a novel benchmark for holistic, realistic assessment of LLM agents in diverse professional settings. CRMArena-Pro expands on CRMArena with nineteen expert-validated tasks across sales, service, and 'configure, price, and quote' processes, for both Business-to-Business and Business-to-Customer scenarios. It distinctively incorporates multi-turn interactions guided by diverse personas and robust confidentiality awareness assessments. Experiments reveal leading LLM agents achieve only around 58% single-turn success on CRMArena-Pro, with performance dropping significantly to approximately 35% in multi-turn settings. While Workflow Execution proves more tractable for top agents (over 83% single-turn success), other evaluated business skills present greater challenges. Furthermore, agents exhibit near-zero inherent confidentiality awareness; though targeted prompting can improve this, it often compromises task performance. These findings highlight a substantial gap between current LLM capabilities and enterprise demands, underscoring the need for advancements in multi-turn reasoning, confidentiality adherence, and versatile skill acquisition.
- Abstract(参考訳): AIエージェントはビジネスにおいて変革的な可能性を秘めているが、効果的なパフォーマンスベンチマークは、広く使用されているプラットフォーム上での、パブリックで現実的なビジネスデータの不足によって妨げられている。
既存のベンチマークは環境、データ、エージェントとユーザ間の相互作用に忠実さを欠いていることが多く、多様なビジネスシナリオや業界をカバーしている。
CRMArena-Proは,多種多様なプロフェッショナル環境でのLLMエージェントの総合的,現実的な評価のための新しいベンチマークである。
CRMArena-ProはCRMArenaのビジネス・ツー・ビジネス・ツー・ビジネス・ツー・カスタマーの両方のシナリオに対して、セールス、サービス、および'設定、価格、引用'プロセスで19のエキスパート検証タスクを拡大する。
多様なペルソナと堅牢な機密性意識評価によって導かれるマルチターンインタラクションを特有に取り入れている。
実験によると、主要なLLMエージェントはCRMArena-Proで58%のシングルターン成功しか達成せず、パフォーマンスはマルチターン設定で約35%に大幅に低下している。
ワークフロー実行(Workflow Execution)は、トップエージェントにとって(シングルターン成功の83%以上)より難しいことを証明しますが、他の評価されたビジネススキルはより大きな課題を示します。
さらに、エージェントは、ほぼゼロに近い固有の機密性意識を示し、ターゲットのプロンプトは、これを改善することができるが、しばしばタスクパフォーマンスを損なう。
これらの知見は, マルチターン推論, 機密性順守, 汎用スキル獲得の進歩の必要性を浮き彫りにして, 現在のLLM能力と企業需要の実質的なギャップを浮き彫りにしている。
関連論文リスト
- OpenDeception: Benchmarking and Investigating AI Deceptive Behaviors via Open-ended Interaction Simulation [23.204532296472834]
オープンなシナリオデータセットを備えた,新たな偽装評価フレームワークであるOpenDeceptionを紹介する。
OpenDeception は LLM をベースとしたエージェントの偽装意図と能力の両方を, 内部推論過程を検査することによって共同評価する。
そこで本研究では, エージェントシミュレーションによるマルチターン対話をシミュレートする手法を提案する。
論文 参考訳(メタデータ) (2025-04-18T14:11:27Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents [74.16170899755281]
本稿では,LLMエージェントの分析的評価に適したオープンソース評価フレームワークであるAgentBoardを紹介する。
AgentBoardは、インクリメンタルな進歩と包括的な評価ツールキットをキャプチャする、きめ細かい進捗率のメトリクスを提供する。
これはLLMエージェントの能力と限界に光を当てるだけでなく、その性能の解釈可能性も最前線に広める。
論文 参考訳(メタデータ) (2024-01-24T01:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。