論文の概要: ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions
- arxiv url: http://arxiv.org/abs/2601.06112v1
- Date: Sat, 03 Jan 2026 13:41:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:00.581116
- Title: ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions
- Title(参考訳): ReliabilityBench: 生産様応力条件下でのLLMエージェントの信頼性評価
- Authors: Aayush Gupta,
- Abstract要約: ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
- 参考スコア(独自算出の注目度): 0.32928123659012326
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing benchmarks for tool-using LLM agents primarily report single-run success rates and miss reliability properties required in production. We introduce \textbf{ReliabilityBench}, a benchmark for evaluating agent reliability across three dimensions: (i) consistency under repeated execution using $\mathrm{pass}^k$, (ii) robustness to semantically equivalent task perturbations at intensity $ε$, and (iii) fault tolerance under controlled tool/API failures at intensity $λ$. ReliabilityBench contributes a unified reliability surface $R(k,ε,λ)$, \textit{action metamorphic relations} that define correctness via end-state equivalence rather than text similarity, and a chaos-engineering-style fault injection framework (timeouts, rate limits, partial responses, schema drift). We evaluate two models (Gemini 2.0 Flash, GPT-4o) and two agent architectures (ReAct, Reflexion) across four domains (scheduling, travel, customer support, e-commerce) over 1,280 episodes. Perturbations alone reduce success from 96.9% at $ε=0$ to 88.1% at $ε=0.2$. Rate limiting is the most damaging fault in ablations. ReAct is more robust than Reflexion under combined stress, and Gemini 2.0 Flash achieves comparable reliability to GPT-4o at much lower cost. ReliabilityBench provides a systematic framework for assessing production readiness of LLM agents.
- Abstract(参考訳): ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである \textbf{ReliabilityBench} を紹介する。
(i) $\mathrm{pass}^k$,
(ii)強度$ε$,および意味論的に等価なタスク摂動に対するロバスト性
(iii)制御ツール/API障害時の耐障害性はλ$である。
ReliabilityBench は統一された信頼性曲面 $R(k,ε,λ)$, \textit{action metamorphic relations} に寄与する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
摂動だけでは、$ε=0$で96.9%から$ε=0.2$で88.1%に減少する。
金利制限は、アブレーションで最も被害の大きい欠陥である。
ReActは複合ストレス下でReflexionよりも堅牢であり、Gemini 2.0 FlashはGPT-4oに匹敵する信頼性をはるかに低コストで達成している。
ReliabilityBenchは、LLMエージェントの生産準備性を評価するための体系的なフレームワークを提供する。
関連論文リスト
- The 4/$δ$ Bound: Designing Predictable LLM-Verifier Systems for Formal Method Guarantee [5.345468714252351]
この研究は LLM-Verifier Convergence Theorem の開発によってギャップを埋める。
LLMと検証器の相互作用を離散時間マルコフ連鎖としてモデル化する。
われわれはこの予測を90,000件以上の治験を含む広範囲な実証キャンペーンでストレステストした。
論文 参考訳(メタデータ) (2025-11-30T22:19:09Z) - SABER: Small Actions, Big Errors -- Safeguarding Mutating Steps in LLM Agents [52.20768003832476]
我々は$$-Bench (Airline/Retail) および SWE-Bench Verified 上での実行トレースを分析する。
成功を失敗に戻すための、先進的な逸脱、最初期の行動、レベル分岐を形式化する。
モデルに依存しない,勾配のない,テスト時のセーフガードである cm を導入します。
論文 参考訳(メタデータ) (2025-11-26T01:28:22Z) - Alpha Divergence Losses for Biometric Verification [19.758259380263528]
差分損失関数($-divergence loss function)は、マージンベースのソフトマックス損失に対して魅力的な代替手段であることを示す。
Q-MarginとA3Mの2つの新しいマージンベースの$-divergence損失を導出する。
我々のモデルは、低い偽受け入れ率で強いベースラインを著しく上回ります。
論文 参考訳(メタデータ) (2025-11-17T17:27:28Z) - Beyond Prompt Engineering: Neuro-Symbolic-Causal Architecture for Robust Multi-Objective AI Agents [0.0]
大規模な言語モデルは、自律的な意思決定エージェントとして有望であるが、高い領域への展開はリスクを伴い続けている。
本稿では,LLMストラテジスト,公式なシンボル制約エンジン,因果推論モジュールを統合した,ニューロシンボリック・因果的アーキテクチャであるChimeraを紹介する。
論文 参考訳(メタデータ) (2025-10-27T15:25:35Z) - AgentChangeBench: A Multi-Dimensional Evaluation Framework for Goal-Shift Robustness in Conversational AI [5.165179548592513]
AgentChangeBenchは、ツール拡張言語モデルエージェントがミッドダイアログのゴールシフトにどのように適応するかを測定するために設計されたベンチマークである。
本フレームワークは,タスク成功率(TSR),信頼性のためのツール利用効率(TUE),無駄な作業のためのツールコール冗長率(TCRR),適応のためのゴールシフト回復時間(GSRT)の4つの相補的指標を用いて評価を定式化する。
論文 参考訳(メタデータ) (2025-10-20T23:48:07Z) - MaP: A Unified Framework for Reliable Evaluation of Pre-training Dynamics [72.00014675808228]
大規模言語モデルの不安定性評価プロセスは、真の学習力学を曖昧にする。
textbfMaPは、アンダーラインMergingアンダーラインとアンダーラインPass@kメトリックを統合するフレームワークです。
実験により、MaPはよりスムーズな性能曲線を示し、ラン間分散を低減し、より一貫性のあるランキングを保証する。
論文 参考訳(メタデータ) (2025-10-10T11:40:27Z) - MCTS-Refined CoT: High-Quality Fine-Tuning Data for LLM-Based Repository Issue Resolution [18.314436803012434]
本稿では,モンテカルロ木探索(MCTS)に基づく中間推論ステップの動的検証と最適化を行うMCTS-INEを提案する。
SWE-bench LiteとSWE-bench Verifiedの実験は、我々のCoTデータセットで微調整されたLLMがベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-06-15T05:42:01Z) - Runaway is Ashamed, But Helpful: On the Early-Exit Behavior of Large Language Model-based Agents in Embodied Environments [54.67512489842682]
大規模言語モデル(LLM)は、複雑な実施環境において、強力な計画と意思決定能力を示す。
LLMをベースとしたエージェントの早期退避行動を探究する第一歩を踏み出す。
論文 参考訳(メタデータ) (2025-05-23T08:23:36Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。