論文の概要: Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence
- arxiv url: http://arxiv.org/abs/2601.00596v1
- Date: Fri, 02 Jan 2026 07:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.538409
- Title: Beyond IVR: Benchmarking Customer Support LLM Agents for Business-Adherence
- Title(参考訳): Beyond IVR: 顧客によるビジネス適応のためのLLMエージェントのベンチマーク
- Authors: Sumanth Balaji, Piyush Mishra, Aashraya Sachdeva, Suraj Agrawal,
- Abstract要約: 顧客サポートにおけるポリシー対応エージェントの評価を目的としたベンチマークであるJourneyBenchを紹介する。
静的プロンプトエージェント(SPA)と動的プロンプトエージェント(DPA)の2つのエージェント設計を用いて,複数の最先端エージェント設計を評価する。
DPAは,GPT-4o-miniのような小型モデルでも,GPT-4o-miniのようなより有能なモデルよりも優れることを示す。
- 参考スコア(独自算出の注目度): 1.8357468337756873
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional customer support systems, such as Interactive Voice Response (IVR), rely on rigid scripts and lack the flexibility required for handling complex, policy-driven tasks. While large language model (LLM) agents offer a promising alternative, evaluating their ability to act in accordance with business rules and real-world support workflows remains an open challenge. Existing benchmarks primarily focus on tool usage or task completion, overlooking an agent's capacity to adhere to multi-step policies, navigate task dependencies, and remain robust to unpredictable user or environment behavior. In this work, we introduce JourneyBench, a benchmark designed to assess policy-aware agents in customer support. JourneyBench leverages graph representations to generate diverse, realistic support scenarios and proposes the User Journey Coverage Score, a novel metric to measure policy adherence. We evaluate multiple state-of-the-art LLMs using two agent designs: a Static-Prompt Agent (SPA) and a Dynamic-Prompt Agent (DPA) that explicitly models policy control. Across 703 conversations in three domains, we show that DPA significantly boosts policy adherence, even allowing smaller models like GPT-4o-mini to outperform more capable ones like GPT-4o. Our findings demonstrate the importance of structured orchestration and establish JourneyBench as a critical resource to advance AI-driven customer support beyond IVR-era limitations.
- Abstract(参考訳): 従来のカスタマーサポートシステムであるInteractive Voice Response (IVR)は、厳格なスクリプトに依存しており、複雑なポリシー駆動タスクを扱うのに必要な柔軟性を欠いている。
大きな言語モデル(LLM)エージェントは有望な代替手段を提供するが、ビジネスルールや現実世界のサポートワークフローに従って行動する能力を評価することは、依然としてオープンな課題である。
既存のベンチマークは主にツールの使用やタスク補完に重点を置いており、エージェントがマルチステップポリシーに準拠し、タスク依存をナビゲートし、予測不可能なユーザや環境の振る舞いに対して堅牢な状態を維持する能力を見越している。
本稿では、顧客サポートにおけるポリシー対応エージェントの評価を目的としたベンチマークであるJourneyBenchを紹介する。
JourneyBenchは、グラフ表現を活用して、多種多様な現実的なサポートシナリオを生成し、ポリシー順守を測定する新しいメトリクスであるUser Journey Coverage Scoreを提案する。
政策制御を明示的にモデル化する静的プロンプトエージェント (SPA) と動的プロンプトエージェント (DPA) の2つのエージェント設計を用いて,複数の最先端LCMを評価した。
3つの領域における703件の会話を通して、DPAはGPT-4o-miniのようなより小さなモデルでも、GPT-4oのようなより有能なモデルよりも優れることを示す。
我々の発見は、構造化オーケストレーションの重要性を示し、IVR時代の制限を超えてAI駆動のカスタマーサポートを推進するための重要なリソースとしてJourneyBenchを確立した。
関連論文リスト
- Reason-Plan-ReAct: A Reasoner-Planner Supervising a ReAct Executor for Complex Enterprise Tasks [0.0]
RP-ReActは,低レベルの実行から戦略的計画を切り離して信頼性と効率を向上する,新しいマルチエージェントアプローチである。
RP-ReActは、各サブステップを計画するReasoner Planner Agent(RPA)と、サブステップを具体的なツールインタラクションに変換する1つまたは複数のProxy-Execution Agent(PEA)から構成される。
RP-ReActを6つのオープンウェイト推論モデルの多種多様なセットを用いて、挑戦的なマルチドメインツールQAベンチマークで評価する。
論文 参考訳(メタデータ) (2025-12-03T08:28:40Z) - Multimodal Policy Internalization for Conversational Agents [48.11601444262434]
マルチモーダルポリシー内部化(MPI)は、推論集約型マルチモーダルポリシーをモデルパラメータに内部化する新しいタスクである。
合成と実世界の意思決定とツール使用タスクにまたがる2つのデータセットを構築します。
TriMPIは、エンドツーエンドの精度、一般化、ロバスト性において顕著な向上を実現している。
論文 参考訳(メタデータ) (2025-10-10T15:28:30Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MAG-V: A Multi-Agent Framework for Synthetic Data Generation and Verification [5.666070277424383]
MAG-Vは、顧客のクエリを模倣する質問のデータセットを生成するフレームワークである。
我々の合成データは、実際の顧客クエリにおけるエージェントのパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2024-11-28T19:36:11Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z) - Agent-Pro: Learning to Evolve via Policy-Level Reflection and Optimization [53.510942601223626]
大規模言語モデル(LLM)は多様なタスクに対して堅牢な問題解決能力を示す。
これらのタスクソルバは、タスクルールを通知し、行動を調整するために手作業によるプロンプトを必要とする。
本稿では,ポリシーレベルのリフレクションと最適化を備えた LLM ベースのエージェントである Agent-Pro を提案する。
論文 参考訳(メタデータ) (2024-02-27T15:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。