論文の概要: Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2603.29231v1
- Date: Tue, 31 Mar 2026 03:56:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.09745
- Title: Beyond pass@1: A Reliability Science Framework for Long-Horizon LLM Agents
- Title(参考訳): Pass@1を超えて:Long-Horizon LLMエージェントのための信頼性科学フレームワーク
- Authors: Aaditya Khanal, Yangyang Tao, Junxiu Zhou,
- Abstract要約: 既存のベンチマークは、モデルがひとつの試みで成功するかどうかを計測しますが、本番環境のデプロイメントには信頼性が必要です。
信頼性劣化曲線(RDC)、可変増幅係数(VAF)、グレースフル劣化スコア(GDS)、メルトダウンオンセットポイント(MOP)の4つの指標を持つ長期LDMエージェントに対する信頼性科学フレームワークを導入する。
23,392エピソードにわたる10のモデルを,4つの持続バケットと3つのドメインにまたがる396タスクベンチマークで評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing benchmarks measure capability -- whether a model succeeds on a single attempt -- but production deployments require reliability -- consistent success across repeated attempts on tasks of varying duration. We show these properties diverge systematically as task duration grows, and that pass@1 on short tasks is structurally blind to this divergence. We introduce a reliability science framework for long-horizon LLM agents with four metrics: Reliability Decay Curve (RDC), Variance Amplification Factor (VAF), Graceful Degradation Score (GDS), and Meltdown Onset Point (MOP). We evaluate 10 models across 23,392 episodes on a 396-task benchmark spanning four duration buckets and three domains. Key findings: (1) reliability decay is domain-stratified -- SE GDS drops from 0.90 to 0.44 while document processing is nearly flat (0.74 to 0.71); (2) VAF bifurcates by capability tier -- high VAF is a capability signature, not an instability signal; (3) capability and reliability rankings diverge substantially, with multi-rank inversions at long horizons; (4) frontier models have the highest meltdown rates (up to 19%) because they attempt ambitious multi-step strategies that sometimes spiral; and (5) memory scaffolds universally hurt long-horizon performance across all 10 models. These results motivate reliability as a first-class evaluation dimension alongside capability.
- Abstract(参考訳): 既存のベンチマークは、モデルがひとつの試みで成功するかどうかを計測しますが、プロダクションデプロイメントには信頼性が必要です。
タスク持続時間が増加するにつれて、これらの特性は体系的に分散し、短いタスクのpass@1は、この分散に対して構造的に盲目であることを示す。
信頼性劣化曲線(RDC)、可変増幅係数(VAF)、グレースフル分解スコア(GDS)、メルトダウンオンセットポイント(MOP)の4つの指標を持つ長期LDMエージェントに対する信頼性科学フレームワークを導入する。
23,392エピソードにわたる10のモデルを,4つの持続バケットと3つのドメインにまたがる396タスクベンチマークで評価した。
主な発見:(1)信頼性の低下はドメイン階層化されている -- SE GDSは0.90から0.44に低下し、ドキュメント処理はほぼ平坦である(0.74から0.71)、(2) VAFバイフルケートは機能レベルによって2倍になる -- 高いVAFは機能シグネチャであり、不安定な信号ではない。
これらの結果は、信頼性を能力とともに第一級評価次元として動機付けている。
関連論文リスト
- Multi-Axis Trust Modeling for Interpretable Account Hijacking Detection [1.0152838128195467]
本稿では,ハディスにインスパイアされたマルチ軸信頼モデリングフレームワークを提案する。
我々は,5つの信頼軸 – 長期的整合性(アダラ),行動精度(ダブト),文脈連続性(アイソナド),累積的評価,異常証拠 – を,ユーザアカウントに対して意味論的に意味のある行動特徴からなる26のコンパクトなセットに翻訳する。
CLUE-LDSクラウドアクティビティデータセットのフレームワークを,インジェクトされたアカウントハイジャックシナリオを用いて評価した。
論文 参考訳(メタデータ) (2026-02-20T19:36:30Z) - BadCLIP++: Stealthy and Persistent Backdoors in Multimodal Contrastive Learning [73.46118996284888]
マルチモーダル・コントラスト学習モデルに対するバックドア攻撃の研究は、ステルスネスと永続性という2つの大きな課題に直面している。
両課題に対処する統合フレームワークであるBadCLIP++を提案する。
ステルスネスのために,タスク関連領域付近に知覚不可能なパターンを埋め込むセマンティックフュージョンQRマイクロトリガーを導入する。
持続性については、半径縮小とセントロイドアライメントによるトリガ埋め込みを安定化する。
論文 参考訳(メタデータ) (2026-02-19T08:31:16Z) - The Six Sigma Agent: Achieving Enterprise-Grade Reliability in LLM Systems Through Consensus-Driven Decomposed Execution [0.0]
シックスシグマエージェント(Six Sigma Agent)は、3つの相乗的コンポーネントを通してエンタープライズグレードの信頼性を実現する新しいアーキテクチャである。
単エージェント実行よりも信頼性が14,700倍向上し,コストが80%削減された。
私たちの研究は、AIシステムの信頼性が、モデルスケーリング単独ではなく、原則的な冗長性とコンセンサスから生まれることを実証しています。
論文 参考訳(メタデータ) (2026-01-29T20:04:29Z) - ReliabilityBench: Evaluating LLM Agent Reliability Under Production-Like Stress Conditions [0.32928123659012326]
ツールを使用するLLMエージェントの既存のベンチマークでは、主に単一実行の成功率を報告し、運用に必要な信頼性特性を見逃している。
エージェントの信頼性を3次元にわたって評価するベンチマークである textbfReliabilityBench を紹介する。
我々は2つのモデル(Gemini 2.0 Flash, GPT-4o)と2つのエージェントアーキテクチャ(ReAct, Reflexion)を1,280回にわたって4つのドメイン(スケジューリング、旅行、カスタマーサポート、eコマース)で評価した。
論文 参考訳(メタデータ) (2026-01-03T13:41:33Z) - DUAL-Bench: Measuring Over-Refusal and Robustness in Vision-Language Models [59.45605332033458]
安全メカニズムはバックファイアし、過剰な拒絶を引き起こし、モデルが過度に注意を払って良質な要求を減らします。
既存のベンチマークは、視覚的モダリティの過剰な拒絶に体系的に対処していない。
この設定は、命令が無害であるが付随する画像には有害な内容が含まれているというような、ユニークな課題をもたらす。
論文 参考訳(メタデータ) (2025-10-12T23:21:34Z) - ReFIne: A Framework for Trustworthy Large Reasoning Models with Reliability, Faithfulness, and Interpretability [23.70973331911138]
使用可能な推論システムは、解釈可能性、忠実性、信頼性の3つの特性を特徴とする、信頼できるものでなければならない、と我々は主張する。
本稿では,GRPOと教師付き微調整を統合した新しいトレーニングフレームワークReFIneを提案する。
実験の結果,ReFIneモデルはより明確でより構造化された推論トレースを生成することがわかった。
論文 参考訳(メタデータ) (2025-10-10T07:08:44Z) - On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - Confidence-Aware Routing for Large Language Model Reliability Enhancement: A Multi-Signal Approach to Pre-Generation Hallucination Mitigation [0.0]
大規模言語モデルは幻覚に悩まされ、可視だが事実的に誤った内容を生成する。
現在の緩和戦略は、計算コストが高く、信頼性の低いコンテンツ生成を防げない、ポストジェネレーション補正に重点を置いている。
本稿では,予測された信頼性に基づいて,モデルの不確実性を積極的に評価し,クエリをリダイレクトする信頼度対応ルーティングシステムを提案する。
論文 参考訳(メタデータ) (2025-09-23T18:34:20Z) - Decoding Compressed Trust: Scrutinizing the Trustworthiness of Efficient LLMs Under Compression [109.23761449840222]
本研究は,Large Language Models (LLM) の最初の完全評価を行う。
量子化は現在、効率性と信頼性を同時に達成する上で、プルーニングよりも効果的なアプローチであることが分かっています。
論文 参考訳(メタデータ) (2024-03-18T01:38:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。