論文の概要: CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios
- arxiv url: http://arxiv.org/abs/2505.09436v1
- Date: Wed, 14 May 2025 14:44:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.500736
- Title: CXMArena: Unified Dataset to benchmark performance in realistic CXM Scenarios
- Title(参考訳): CXMArena: 現実的なCXMシナリオのパフォーマンスをベンチマークするための統一データセット
- Authors: Raghav Garg, Kapil Sharma, Karan Gupta,
- Abstract要約: 大規模言語モデル(LLM)は、顧客エクスペリエンスマネジメント(CXM)に革命をもたらす大きな可能性を秘めている
複雑な運用環境での実用性の評価は、データ不足と現在のベンチマークの限界によって妨げられています。
我々はCXMArenaを紹介した。これはCXMコンテキストでAIを評価するために特別に設計された、新しい大規模合成ベンチマークデータセットである。
- 参考スコア(独自算出の注目度): 2.453527617789368
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large Language Models (LLMs) hold immense potential for revolutionizing Customer Experience Management (CXM), particularly in contact center operations. However, evaluating their practical utility in complex operational environments is hindered by data scarcity (due to privacy concerns) and the limitations of current benchmarks. Existing benchmarks often lack realism, failing to incorporate deep knowledge base (KB) integration, real-world noise, or critical operational tasks beyond conversational fluency. To bridge this gap, we introduce CXMArena, a novel, large-scale synthetic benchmark dataset specifically designed for evaluating AI in operational CXM contexts. Given the diversity in possible contact center features, we have developed a scalable LLM-powered pipeline that simulates the brand's CXM entities that form the foundation of our datasets-such as knowledge articles including product specifications, issue taxonomies, and contact center conversations. The entities closely represent real-world distribution because of controlled noise injection (informed by domain experts) and rigorous automated validation. Building on this, we release CXMArena, which provides dedicated benchmarks targeting five important operational tasks: Knowledge Base Refinement, Intent Prediction, Agent Quality Adherence, Article Search, and Multi-turn RAG with Integrated Tools. Our baseline experiments underscore the benchmark's difficulty: even state of the art embedding and generation models achieve only 68% accuracy on article search, while standard embedding methods yield a low F1 score of 0.3 for knowledge base refinement, highlighting significant challenges for current models necessitating complex pipelines and solutions over conventional techniques.
- Abstract(参考訳): 大規模言語モデル(LLM)は、顧客エクスペリエンス管理(CXM)、特にコンタクトセンターオペレーションに革命をもたらす大きな可能性を秘めている。
しかし、複雑な運用環境での実用性の評価は、データ不足(プライバシー上の懸念による)と現在のベンチマークの制限によって妨げられる。
既存のベンチマークにはリアリズムが欠如していることが多く、深い知識ベース(KB)の統合、現実のノイズ、会話の流布を超えた重要な操作タスクが組み込まれていない。
このギャップを埋めるために、我々はCXMArenaを紹介します。これは、CXMコンテキストでAIを評価するために設計された、新しい大規模合成ベンチマークデータセットです。
コンタクトセンターの特徴の多様性を考えると、当社は、当社のデータセットの基盤となるブランドのCXMエンティティをシミュレートするスケーラブルなLCM駆動パイプラインを開発しました。
エンティティは、制御されたノイズ注入(ドメインの専門家によって指示される)と厳密な自動検証のために、現実世界の分布をよく表している。
CXMArenaは、知識ベースリファインメント、インテント予測、エージェント品質の整合性、記事検索、統合ツールを用いたマルチターンRAGの5つの重要な運用タスクを対象とした専用のベンチマークを提供する。
最先端の埋め込みおよび生成モデルでさえ、記事検索において68%の精度しか達成できないのに対して、標準的な埋め込み手法では知識ベースの改良に0.3の低いF1スコアが得られ、従来の手法よりも複雑なパイプラインやソリューションを必要とする現在のモデルにとって重要な課題が浮かび上がっている。
関連論文リスト
- OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Can Large Language Models Generate Effective Datasets for Emotion Recognition in Conversations? [14.788624194380825]
会話における感情認識(英: Emotion Recognition in conversation、ERC)は、対話における感情の変化を特定することに焦点を当てる。
既存のデータセットは、バイアスの強いソースとソフトラベル固有の主観性のために、多くの課題に直面している。
資源効率が高く汎用的なLCMを用いて,多様な特性を持つERCデータセットを合成する。
論文 参考訳(メタデータ) (2025-08-07T15:13:55Z) - FailureSensorIQ: A Multi-Choice QA Dataset for Understanding Sensor Relationships and Failure Modes [7.788259584005182]
本稿では,MCQA(Multi-Choice Question-Answering)ベンチマークシステムであるFailureSensorIQを紹介する。
従来のQAベンチマークとは異なり、本システムは障害モード、センサデータ、および各種産業資産間の関連性を通しての推論の複数の側面に焦点を当てている。
論文 参考訳(メタデータ) (2025-06-03T18:05:10Z) - Evaluating LLM Metrics Through Real-World Capabilities [0.0]
大規模調査データと利用ログを分析し,Large Language Models(LLM)の使用方法を示す6つのコア機能を特定する。
次に、既存のベンチマークがこれらの機能をカバーする範囲を評価し、カバレッジ、効率測定、解釈可能性に大きなギャップがあることを明らかにする。
6つの機能のうち4つは、実世界のタスクに最適なベンチマークを特定し、それらを主要なモデルの比較に使用します。
論文 参考訳(メタデータ) (2025-05-13T06:02:37Z) - QLLM: Do We Really Need a Mixing Network for Credit Assignment in Multi-Agent Reinforcement Learning? [4.429189958406034]
マルチエージェント強化学習(MARL)におけるクレジットの割り当ては依然として根本的な課題である。
大規模言語モデル(LLM)を用いた信用代入関数の自動構築を容易にする新しいアルゴリズムである textbfQLLM を提案する。
いくつかの標準MARLベンチマークで実施された大規模な実験は、提案手法が既存の最先端のベースラインを一貫して上回ることを示した。
論文 参考訳(メタデータ) (2025-04-17T14:07:11Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - Towards Human-Guided, Data-Centric LLM Co-Pilots [53.35493881390917]
CliMB-DCは、機械学習コパイロットのための、ヒューマンガイド付き、データ中心のフレームワークである。
高度なデータ中心ツールとLLM駆動推論を組み合わせることで、堅牢でコンテキスト対応のデータ処理を可能にする。
CliMB-DCが未処理のデータセットをML対応フォーマットに変換する方法を示す。
論文 参考訳(メタデータ) (2025-01-17T17:51:22Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - MMAU: A Holistic Benchmark of Agent Capabilities Across Diverse Domains [54.117238759317004]
大規模マルチタスクエージェント理解(MMAU)ベンチマークは、複雑な環境設定を必要としない包括的なオフラインタスクを特徴としている。
ツールユース、DAG(Directed Acyclic Graph)QA、データサイエンスと機械学習コーディング、コンテストレベルのプログラミング、数学の5分野にわたるモデルを評価する。
3K以上の異なるプロンプトを含む20の精巧に設計されたタスクにより、MMAUはLLMエージェントの強度と限界を評価するための包括的なフレームワークを提供する。
論文 参考訳(メタデータ) (2024-07-18T00:58:41Z) - A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。
本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。
我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-07-14T11:15:28Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。