論文の概要: CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments
- arxiv url: http://arxiv.org/abs/2603.28569v1
- Date: Mon, 30 Mar 2026 15:26:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:45.476774
- Title: CirrusBench: Evaluating LLM-based Agents Beyond Correctness in Real-World Cloud Service Environments
- Title(参考訳): CirrusBench: LLMベースのエージェントを現実のクラウドサービス環境での正確性を超えて評価する
- Authors: Yi Yu, Guangquan Hu, Chenghuang Shen, Xingyan Liu, Jing Gu, Hangyi Sun, Junzhuo Ma, Weiting Liu, Jianfeng Liu, Mingyue Pu, Yu Wang, Zhengdong Xiao, Rui Xie, Longjiu Luo, Qianrong Wang, Gurong Cui, Honglin Qiao, Wenlian Lu,
- Abstract要約: 我々はCirrusBenchを紹介した。CirrusBenchは、実際のクラウドサービスチケットから得られる実世界のデータの基盤によって区別される、新しい評価フレームワークである。
CirrusBenchは、複雑なマルチターン論理チェーンと、サービス環境固有の現実的なツール依存を保存する。
我々のフレームワークを利用した実験により、最先端のモデルは強力な推論能力を示す一方で、複雑な現実的なマルチターンタスクでしばしば苦労していることが明らかとなった。
- 参考スコア(独自算出の注目度): 15.613490987782264
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The increasing agentic capabilities of Large Language Models (LLMs) have enabled their deployment in real-world applications, such as cloud services, where customer-assistant interactions exhibit high technical complexity and long-horizon dependencies, making robustness and resolution efficiency critical for customer satisfaction. However, existing benchmarks for LLM-based agents largely rely on synthetic environments that fail to capture the diversity and unpredictability of authentic customer inputs, often ignoring the resolution efficiency essential for real-world deployment. To bridge this gap, we introduce CirrusBench, a novel evaluation framework distinguished by its foundation in real-world data from authentic cloud service tickets. CirrusBench preserves the intricate multi-turn logical chains and realistic tool dependencies inherent to technical service environments. Moving beyond execution correctness, we introduce novel Customer-Centric metrics to define agent success, quantifying service quality through metrics such as the Normalized Efficiency Index and Multi-Turn Latency to explicitly measure resolution efficiency. Experiments utilizing our framework reveal that while state-of-the-art models demonstrate strong reasoning capabilities, they frequently struggle in complex, realistic multi-turn tasks and fail to meet the high-efficiency standards required for customer service, highlighting critical directions for the future development of LLM-based agents in practical technical service applications. CirrusBench evaluation framework is released at: https://github.com/CirrusAI
- Abstract(参考訳): 大規模言語モデル(LLM)のエージェント能力の増大により、クラウドサービスのような現実のアプリケーションへのデプロイが可能になった。
しかし、LLMベースのエージェントの既存のベンチマークは、実際の展開に必要な解決効率を無視して、真の顧客の入力の多様性と予測不能を捉えるのに失敗する合成環境に大きく依存している。
このギャップを埋めるために、私たちはCirrusBenchを紹介します。
CirrusBenchは、技術的なサービス環境に固有の複雑なマルチターン論理チェーンと現実的なツール依存を保存する。
実行の正確性を超えて、エージェントの成功を定義するための新しい顧客中心メトリクスを導入し、正常化効率指数やマルチトゥルンレイテンシといったメトリクスを通じてサービス品質を定量化し、解決効率を明示的に測定します。
我々のフレームワークを利用した実験によると、最先端のモデルは強力な推論能力を示す一方で、複雑で現実的なマルチターンタスクに苦しむことが多く、顧客サービスに必要な高効率な標準を満たすことができず、実用的技術的サービスアプリケーションにおけるLLMベースのエージェントの今後の開発への重要な方向性を浮き彫りにしている。
CirrusBench評価フレームワークは、https://github.com/CirrusAIでリリースされた。
関連論文リスト
- Proximity-Based Multi-Turn Optimization: Practical Credit Assignment for LLM Agent Training [26.571744733431448]
マルチターンLDMエージェントは、顧客サービス自動化、eコマース支援、インタラクティブタスク管理など、プロダクションシステムにとって重要な存在である。
Proximity-based Multi-turn Optimization (ProxMO) は実世界の展開の制約に特化して設計された実用的で堅牢なフレームワークである。
論文 参考訳(メタデータ) (2026-02-22T15:18:03Z) - Agent Skill Framework: Perspectives on the Potential of Small Language Models in Industrial Environments [14.079091139464175]
この研究は、エージェントスキルプロセスの形式的な数学的定義を導入し、その後、様々な大きさの言語モデルの体系的な評価を行った。
その結果、小型モデルは信頼性の高いスキル選択に苦しむ一方で、中程度のサイズのSLM(約12B~30B)はエージェントスキルアプローチから大きく恩恵を受けることがわかった。
論文 参考訳(メタデータ) (2026-02-18T17:52:17Z) - Adaptive Dual-Weighting Framework for Federated Learning via Out-of-Distribution Detection [53.45696787935487]
Federated Learning (FL)は、大規模分散サービスノード間の協調的なモデルトレーニングを可能にする。
実世界のサービス指向デプロイメントでは、異種ユーザ、デバイス、アプリケーションシナリオによって生成されたデータは本質的にIIDではない。
FLoodは、オフ・オブ・ディストリビューション(OOD)検出にインスパイアされた新しいFLフレームワークである。
論文 参考訳(メタデータ) (2026-02-01T05:54:59Z) - LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering [90.84806758077536]
textbfLoCoBench-Agentは,大規模言語モデル(LLM)エージェントを現実的,長期的ソフトウェア工学で評価するための総合的な評価フレームワークである。
我々のフレームワークは、LoCoBenchの8000のシナリオを対話型エージェント環境に拡張し、マルチターン会話の体系的評価を可能にする。
我々のフレームワークは,8つの特殊なツール(ファイル操作,検索,コード解析)をエージェントに提供し,それを10Kから1Mトークンの範囲で評価する。
論文 参考訳(メタデータ) (2025-11-17T23:57:24Z) - Higher Satisfaction, Lower Cost: A Technical Report on How LLMs Revolutionize Meituan's Intelligent Interaction Systems [67.18731675163589]
本稿では,産業アプリケーションに適したインテリジェントインタラクションシステムであるWOWServiceを紹介する。
LLMとマルチエージェントアーキテクチャの統合により、WOWServiceは自律的なタスク管理と協調的な問題解決を可能にします。
WOWServiceはMeituan App上にデプロイされ、主要なメトリクスの大幅な向上を実現している。
論文 参考訳(メタデータ) (2025-10-15T08:35:51Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - MLE-Dojo: Interactive Environments for Empowering LLM Agents in Machine Learning Engineering [57.156093929365255]
自律型大規模言語モデル(LLM)エージェントを体系的に強化し、評価し、改善するためのガイムスタイルのフレームワーク。
MLE-Dojoは、現実的なエンジニアリングシナリオを反映した、多様でオープンなMLEタスクを慎重にキュレートする。
完全に実行可能な環境は、教師付き微調整と強化学習の両方を通して包括的なエージェントトレーニングをサポートする。
論文 参考訳(メタデータ) (2025-05-12T17:35:43Z) - LLM Assisted Anomaly Detection Service for Site Reliability Engineers: Enhancing Cloud Infrastructure Resilience [5.644170923282226]
本稿では,産業時系列データに適した汎用APIを備えたスケーラブルな異常検出サービスを提案する。
サービスの利用パターンに関する洞察を提供しています。年間500人以上のユーザと20万のAPIコールがあります。
時系列基礎モデルを含むシステムを拡張し、ゼロショット異常検出機能を実現する計画である。
論文 参考訳(メタデータ) (2025-01-28T06:41:37Z) - CRMArena: Understanding the Capacity of LLM Agents to Perform Professional CRM Tasks in Realistic Environments [90.29937153770835]
CRMArenaは、プロフェッショナルな作業環境に根ざした現実的なタスクにおいて、AIエージェントを評価するために設計されたベンチマークである。
現状のLDMエージェントはReActプロンプトのタスクの40%以下で成功し,機能呼び出し能力でも55%以下であった。
この結果から,実環境に展開する関数呼び出しやルールフォローにおいて,エージェント機能の向上の必要性が示唆された。
論文 参考訳(メタデータ) (2024-11-04T17:30:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。