論文の概要: CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios
- arxiv url: http://arxiv.org/abs/2505.09436v2
- Date: Mon, 19 May 2025 06:27:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.144195
- Title: CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios
- Title(参考訳): CXMArena: 現実的なCXMシナリオのパフォーマンスをベンチマークするための統一データセット
- Authors: Raghav Garg, Kapil Sharma, Karan Gupta,
- Abstract要約: 大規模言語モデル(LLM)は、顧客エクスペリエンスマネジメント(CXM)に革命をもたらす大きな可能性を秘めている
複雑な運用環境での実用性の評価は、データ不足と現在のベンチマークの限界によって妨げられています。
我々はCXMArenaを紹介した。これはCXMコンテキストでAIを評価するために特別に設計された、新しい大規模合成ベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 2.453527617789368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) hold immense potential for revolutionizing Customer Experience Management (CXM), particularly in contact center operations. However, evaluating their practical utility in complex operational environments is hindered by data scarcity (due to privacy concerns) and the limitations of current benchmarks. Existing benchmarks often lack realism, failing to incorporate deep knowledge base (KB) integration, real-world noise, or critical operational tasks beyond conversational fluency. To bridge this gap, we introduce CXMArena, a novel, large-scale synthetic benchmark dataset specifically designed for evaluating AI in operational CXM contexts. Given the diversity in possible contact center features, we have developed a scalable LLM-powered pipeline that simulates the brand's CXM entities that form the foundation of our datasets-such as knowledge articles including product specifications, issue taxonomies, and contact center conversations. The entities closely represent real-world distribution because of controlled noise injection (informed by domain experts) and rigorous automated validation. Building on this, we release CXMArena, which provides dedicated benchmarks targeting five important operational tasks: Knowledge Base Refinement, Intent Prediction, Agent Quality Adherence, Article Search, and Multi-turn RAG with Integrated Tools. Our baseline experiments underscore the benchmark's difficulty: even state of the art embedding and generation models achieve only 68% accuracy on article search, while standard embedding methods yield a low F1 score of 0.3 for knowledge base refinement, highlighting significant challenges for current models necessitating complex pipelines and solutions over conventional techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顧客エクスペリエンス管理(CXM)、特にコンタクトセンターオペレーションに革命をもたらす大きな可能性を秘めている。
しかし、複雑な運用環境での実用性の評価は、データ不足(プライバシー上の懸念による)と現在のベンチマークの制限によって妨げられる。
既存のベンチマークにはリアリズムが欠如していることが多く、深い知識ベース(KB)の統合、現実のノイズ、会話の流布を超えた重要な操作タスクが組み込まれていない。
このギャップを埋めるために、我々はCXMArenaを紹介します。これは、CXMコンテキストでAIを評価するために設計された、新しい大規模合成ベンチマークデータセットです。
コンタクトセンターの特徴の多様性を考えると、当社は、当社のデータセットの基盤となるブランドのCXMエンティティをシミュレートするスケーラブルなLCM駆動パイプラインを開発しました。
エンティティは、制御されたノイズ注入(ドメインの専門家によって指示される)と厳密な自動検証のために、現実世界の分布をよく表している。
CXMArenaは、知識ベースリファインメント、インテント予測、エージェント品質の整合性、記事検索、統合ツールを用いたマルチターンRAGの5つの重要な運用タスクを対象とした専用のベンチマークを提供する。
最先端の埋め込みおよび生成モデルでさえ、記事検索において68%の精度しか達成できないのに対して、標準的な埋め込み手法では知識ベースの改良に0.3の低いF1スコアが得られ、従来の手法よりも複雑なパイプラインやソリューションを必要とする現在のモデルにとって重要な課題が浮かび上がっている。
関連論文リスト
- Evaluating LLM Metrics Through Real-World Capabilities [0.0]
大規模調査データと利用ログを分析し,Large Language Models(LLM)の使用方法を示す6つのコア機能を特定する。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
論文 参考訳(メタデータ) (2025-05-13T06:02:37Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。
本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。
我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-07-14T11:15:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。