論文の概要: OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series
- arxiv url: http://arxiv.org/abs/2510.21244v1
- Date: Fri, 24 Oct 2025 08:27:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 09:00:15.411366
- Title: OutboundEval: A Dual-Dimensional Benchmark for Expert-Level Intelligent Outbound Evaluation of Xbench's Professional-Aligned Series
- Title(参考訳): OutboundEval: Xbenchのプロフェッショナル指向シリーズのエキスパートレベル知的アウトバウンド評価のための2次元ベンチマーク
- Authors: Pengyu Xu, Shijia Li, Ao Sun, Feng Zhang, Yahan Li, Bo Wu, Zhanyu Ma, Jiguo Li, Jun Xu, Jiuchong Gao, Jinghua Hao, Renqing He, Rui Wang, Yang Liu, Xiaobo Hu, Fan Yang, Jia Zheng, Guanghua Yao,
- Abstract要約: OutboundEvalは、インテリジェントなアウトバウンドコールシナリオにおいて、大きな言語モデル(LLM)を評価するための包括的なベンチマークである。
6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計します。
本稿では,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクのバリエーションに適応する動的評価手法を提案する。
- 参考スコア(独自算出の注目度): 36.88936933010042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose OutboundEval, a comprehensive benchmark for evaluating large language models (LLMs) in expert-level intelligent outbound calling scenarios. Unlike existing methods that suffer from three key limitations - insufficient dataset diversity and category coverage, unrealistic user simulation, and inaccurate evaluation metrics - OutboundEval addresses these issues through a structured framework. First, we design a benchmark spanning six major business domains and 30 representative sub-scenarios, each with scenario-specific process decomposition, weighted scoring, and domain-adaptive metrics. Second, we develop a large-model-driven User Simulator that generates diverse, persona-rich virtual users with realistic behaviors, emotional variability, and communication styles, providing a controlled yet authentic testing environment. Third, we introduce a dynamic evaluation method that adapts to task variations, integrating automated and human-in-the-loop assessment to measure task execution accuracy, professional knowledge application, adaptability, and user experience quality. Experiments on 12 state-of-the-art LLMs reveal distinct trade-offs between expert-level task completion and interaction fluency, offering practical insights for building reliable, human-like outbound AI systems. OutboundEval establishes a practical, extensible, and domain-oriented standard for benchmarking LLMs in professional applications.
- Abstract(参考訳): 専門家レベルのインテリジェントなアウトバウンドコールシナリオにおいて,大規模な言語モデル(LLM)を評価するための包括的なベンチマークであるOutboundEvalを提案する。
データセットの多様性とカテゴリカバレッジの不足、非現実的なユーザシミュレーション、不正確な評価メトリクスの3つの重要な制限に悩まされている既存のメソッドとは異なり、OutboundEvalは構造化されたフレームワークを通じてこれらの問題に対処する。
まず、シナリオ固有のプロセス分解、重み付けスコアリング、ドメイン適応メトリクスを備えた6つの主要なビジネスドメインと30の代表的なサブシナリオにまたがるベンチマークを設計する。
第2に,現実的な行動,感情的変動性,コミュニケーションスタイルを備えた多種多様なペルソナリッチな仮想ユーザを生成できる,大規模モデル駆動型ユーザシミュレータを開発した。
第3に,タスク実行の正確性,専門知識の適用性,適応性,ユーザエクスペリエンスの質を評価するために,タスクの変動に適応する動的評価手法を導入し,ループ内自動評価とヒューマン・イン・ザ・ループ評価を統合する。
最先端の12のLLMの実験では、専門家レベルのタスク完了とインタラクションの頻度の間に明確なトレードオフが示され、信頼性の高い人間のようなアウトバウンドAIシステムを構築するための実践的な洞察を提供する。
OutboundEvalは、プロのアプリケーションでLLMをベンチマークするための実用的で拡張性があり、ドメイン指向の標準を確立している。
関連論文リスト
- SecureWebArena: A Holistic Security Evaluation Benchmark for LVLM-based Web Agents [28.60912756104713]
大規模視覚言語モデル(LVLM)ベースのWebエージェントは、複雑なオンラインタスクを自動化する強力なツールとして登場しつつある。
既存のベンチマークは部分的カバレッジのみを提供し、通常は狭いシナリオに限定される。
LVLMベースのWebエージェントのセキュリティを評価するための,最初の総合的なベンチマークであるツールを提案する。
論文 参考訳(メタデータ) (2025-10-11T07:18:12Z) - Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization [8.356074728041202]
TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
論文 参考訳(メタデータ) (2025-09-11T10:10:48Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - Multi-Modal Requirements Data-based Acceptance Criteria Generation using LLMs [17.373348983049176]
マルチモーダル要求データから受け入れ基準を生成する新しい手法であるRAGcceptance M2REを提案する。
提案手法は,手作業の労力を効果的に削減し,未払いの利害関係者の意図を捉え,貴重な基準を提供する。
本研究は,ソフトウェア検証プロセスの合理化と開発効率の向上におけるマルチモーダルRAG技術の可能性を明らかにする。
論文 参考訳(メタデータ) (2025-08-09T08:35:40Z) - Meeseeks: A Feedback-Driven, Iterative Self-Correction Benchmark evaluating LLMs' Instruction Following Capability [21.96694731466089]
フィードバック機構を組み込んだ完全に自動化された命令追従ベンチマークであるMeeseeksを紹介した。
Meeseeksは、モデル応答における誤ったコンポーネントを特定し、対応するフィードバックを正確に提供することで、モデルを自己補正に向けて反復的に導く。
我々は、マクロレベルとインスタンスレベルの両方から包括的な分析を行い、現在の最先端モデルでよく見られる多くの共通問題を明らかにした。
論文 参考訳(メタデータ) (2025-04-30T13:28:19Z) - ACEBench: Who Wins the Match Point in Tool Usage? [86.79310356779108]
ACEBenchは、Large Language Models (LLMs)におけるツールの使用状況を評価するための包括的なベンチマークである。
データを評価方法論に基づく3つの主要なタイプに分類する。
これは、異なるデータタイプにわたるエラー原因をよりきめ細かい検査を提供する。
論文 参考訳(メタデータ) (2025-01-22T12:59:08Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。