論文の概要: Recoverability Has a Law: The ERR Measure for Tool-Augmented Agents
- arxiv url: http://arxiv.org/abs/2601.22352v1
- Date: Thu, 29 Jan 2026 21:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.085683
- Title: Recoverability Has a Law: The ERR Measure for Tool-Augmented Agents
- Title(参考訳): 回復可能性の法則:ツール強化エージェントのERR測定
- Authors: Sri Vatsa Vuddanti, Satwik Kumar Chittiprolu,
- Abstract要約: 我々は,言語モデルエージェントの可測法則に従えば回復可能であることを示す。
制御された摂動、診断推論、実世界のAPIにまたがる5つのツール使用ベンチマークで、この法則を実証的に検証します。
この結果から,リカバリ性はモデルスケールやアーキテクチャの人工物ではなく,インタラクションダイナミクスの制御された特性であることが判明した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language model agents often appear capable of self-recovery after failing tool call executions, yet this behavior lacks a formal explanation. We present a predictive theory that resolves this gap by showing that recoverability follows a measurable law. To elaborate, we formalize recoverability through Expected Recovery Regret (ERR), which quantifies the deviation of a recovery policy from the optimal one under stochastic execution noise, and derive a first-order relationship between ERR and an empirical observable quantity, the Efficiency Score (ES). This yields a falsifiable first-order quantitative law of recovery dynamics in tool-using agents. We empirically validate the law across five tool-use benchmarks spanning controlled perturbations, diagnostic reasoning, and real-world APIs. Across model scales, perturbation regimes, and recovery horizons, predicted regret under the ERR-ES law closely matched observed post-failure regret measured from Monte Carlo rollouts, within delta less than or equal to 0.05. Our results reveal that recoverability is not an artifact of model scale or architecture, but a governed property of interaction dynamics, providing a theoretical foundation for execution-level robustness in language agents.
- Abstract(参考訳): 言語モデルエージェントは、ツールコールの実行に失敗した後、自己回復できることが多いが、この振る舞いには正式な説明がない。
我々は、このギャップを解消する予測理論を、可測法則に従って回復可能性を示すことによって提示する。
本研究では,確率的実行雑音下での回復ポリシーの偏差を定量化し,ERRと経験的可観測量である効率スコア(ES)との1次関係を導出するERRを用いて,回復可能性の形式化を行う。
これにより、ツール使用エージェントの回復ダイナミクスの1次定量法則が成り立つ。
制御された摂動、診断推論、実世界のAPIにまたがる5つのツール使用ベンチマークで、この法則を実証的に検証します。
ERR-ES法の下では, モデルスケール, 摂動体制, 回復地平線全体で, モンテカルロのロールアウトで測定された観察された欠陥後の後悔とほぼ一致し, デルタ0.05以下であった。
この結果から,リカバリ性はモデルスケールやアーキテクチャの人工物ではなく,インタラクションダイナミクスの制御された特性であり,言語エージェントにおける実行レベルの堅牢性の理論的基盤となることが明らかとなった。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - LaMOuR: Leveraging Language Models for Out-of-Distribution Recovery in Reinforcement Learning [16.093659272414527]
本稿では,不確実性推定に頼らずに回復学習を可能にするLaMOuR(Language Models for Out-of-Distriion Recovery)を提案する。
LaMOuRは、エージェントを元のタスクを成功させる状態に誘導する高密度な報酬コードを生成する。
実験の結果,LaMOuRは様々な移動課題における回復効率を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2025-03-21T13:20:39Z) - Theoretical Insights in Model Inversion Robustness and Conditional Entropy Maximization for Collaborative Inference Systems [89.35169042718739]
協調推論により、クラウドサーバに機密データを公開することなく、エンドユーザは強力なディープラーニングモデルを活用することができる。
近年の研究では、これらの中間機能は、情報が漏洩し、生データをモデル反転攻撃(MIA)によって再構築できるため、プライバシーを十分に保持できないことが判明している。
この研究はまず、与えられた中間特徴の入力の条件エントロピーが、任意のMIAの下での再構成平均二乗誤差(MSE)の保証された下界を与えることを理論的に証明する。
そして、ガウス混合推定に基づいて、この条件付きエントロピーを有界化するための微分可能かつ可解な尺度を導出し、逆ロバスト性を高める条件付きエントロピーアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-01T07:15:21Z) - Bridging Internal Probability and Self-Consistency for Effective and Efficient LLM Reasoning [53.25336975467293]
パープレキシティや自己整合性などの手法の第一理論誤差分解解析について述べる。
パープレキシティ法は、適切な整合関数が存在しないため、かなりのモデル誤差に悩まされる。
本稿では、自己整合性とパープレキシティを統合したReasoning-Pruning Perplexity Consistency(RPC)と、低確率推論経路を排除したReasoning Pruningを提案する。
論文 参考訳(メタデータ) (2025-02-01T18:09:49Z) - Unveiling and Addressing Pseudo Forgetting in Large Language Models [17.888328120571245]
従来のタスクのパフォーマンス劣化は、能力の喪失によるものではなく、適切なモデル能力の活性化のための命令の失敗によるものであることを示す。
Rationale-Guidance Difficulty based Replay (RGD-R) フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-18T14:28:04Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。