論文の概要: Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study
- arxiv url: http://arxiv.org/abs/2606.04056v1
- Date: Tue, 02 Jun 2026 10:46:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.273717
- Title: Token Budgets: An Empirical Catalog of 63 LLM-Agent Budget-Overrun Incidents, with an Affine-Typed Rust Mitigation as a Case Study
- Title(参考訳): Token Budgets: 63 LLM-Agent Budget-Overrun Incidentsの実証研究 : アフィン型ラスト除去を事例として
- Authors: Sajjad Khan,
- Abstract要約: 私たちは、アフィンのオーナシップを運用するRustクレートを構築して、クローン、ダブルスペンディング、あるいは予算の使用を委譲することで、オペレータが避けなければならないランタイムのハザードではなくコンパイルエラーを発生させます。
5つのランタイム、3つのプロバイダ、温度階層化されたライブAPIテストで、このアプローチでは、コンカレントワークと同等の動作で、キャップ違反がゼロで、偽の拒否がゼロであることを報告している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-agent budget overruns are a documented production failure class: a single retry loop can spend thousands of dollars before an operator notices, and the in-process integrity properties that would prevent it (no aliasing, no double-spend, no use-after-delegation of a cost-bearing value) are enforced, if at all, by ad-hoc wrappers rather than by the type system. Our central contribution is empirical: a catalog of 63 confirmed production incidents from 21 orchestration frameworks (2023-2026), each backed by a quoted GitHub issue and, where reported, a dollar loss, organized into an eight-cluster failure taxonomy (inter-rater Cohen's kappa = 0.837, N = 113), plus 47 supplementary structural entries. As one mitigation evaluated against this taxonomy, we build token-budgets, an 1,180-line Rust crate (no unsafe) that operationalizes affine ownership so that cloning, double-spending, or using a budget after delegating it are compile errors rather than runtime hazards an operator must remember to avoid. The dollar cap is runtime arithmetic under an estimator assumption; the affine layer makes that arithmetic non-bypassable. On single-agent workloads a 4-line Python counter matches the crate at 0/30 overshoot, so the distinguishing value is non-bypassability under operator error in multi-agent delegation: the delegation-fanout race documented in 11 incidents is rejected by the borrow checker at compile time, while the same pattern under asyncio overshoots 30/30 and three disciplined alternatives overshoot 0/30. Across five runtimes, three providers, and a temperature-stratified live-API test (N = 160), the approach reports zero cap violations and zero false refusals, at operational parity with concurrent work. Static over-reservation is 4-6x (2.11x adaptive). Binary-level cap-soundness on the running binary is left open.
- Abstract(参考訳): 単一の再試行ループはオペレータが通知する前に数千ドルを費やすことができ、それを防ぐためのプロセス内整合性(エイリアスなし、ダブルスペンドなし、コストを負担する値の使用後デリゲートなし)は、型システムではなくアドホックラッパーによって強制される。
21のオーケストレーションフレームワーク(2023-2026)から63のプロダクションインシデントが確認され、それぞれが引用されたGitHubイシューによってバックアップされ、報告されたドル損失は8クラスタの障害分類(Cohen氏のKappa = 0.837, N = 113),47の追加構造エントリで構成されています。
この分類に対して評価された1つの緩和策として、1180行のRustクラッド(安全でない)というトークン予算が構築されます。
ドルキャップは推定器の仮定で実行時算術であり、アフィン層はその算術をバイパス不能にする。
シングルエージェントのワークロードでは、4行のPythonカウンタがクレートを0/30オーバーシュートでマッチするため、マルチエージェントデリゲートでは演算子エラーの下で区別できない。11インシデントで文書化されたデリゲートファンアウトレースはコンパイル時に借り手チェッカーによって拒否され、asyncioの同じパターンは30/30オーバーシュートし、3つの規律のある代替手段が0/30オーバーシュートする。
5つのランタイム、3つのプロバイダ、温度階層化されたライブAPIテスト(N = 160)を通じて、このアプローチは、同時作業と同等の動作で、キャップ違反をゼロにし、偽の拒否をゼロにする。
静的な保存は4-6倍(2.11倍の適応性)である。
実行中のバイナリのバイナリレベルの上限音はオープンのままである。
関連論文リスト
- Scaling Laws for Agent Harnesses via Effective Feedback Compute [53.68149869349268]
emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
論文 参考訳(メタデータ) (2026-05-28T09:45:47Z) - Converted, Not Equivalent: Benchmarking Codebase Conversion via Observational Equivalence [56.25095230687242]
コーディングエージェントは、しばしば自身のローカル検証ルーチンを過度に信頼し、表面チェックを満たすアーティファクトの成功を宣言する。
この問題は、事前評価が結果駆動である変換において特に深刻である。
ブラインド・コンバージョンは26.7-28.9%に達し、スペック・パスレートは91.1%まで上昇した。
このことは、失敗は限られた予算やバックボーンの強さよりも、契約ミスによる自己検証に起因していることを示唆している。
論文 参考訳(メタデータ) (2026-05-27T19:57:15Z) - SNARE: Adaptive Scenario Synthesis for Eliciting Overeager Behavior in Coding Agents [40.270213696031625]
符号化エージェントは、シェル、ファイル、ネットワークアクションのシーケンスとして良質なタスクを実行する。
プロンプトは敵ではなく、実行は成功しますが、スコープ外ステップでは認証情報をリークしたり、ファイルを削除することができます。
既存のベンチマークでは、タスク補完スイートは、完了した実行を承認し、jailbreakスイートは、逆のプロンプトをプローブし、以前のオーバーイーガーベンチマークは、各エージェントモデルペアに単一の固定プロンプトを適用する。
再利用可能なスコープから良性シナリオを構成するパイプラインであるSNAREを提案する。
論文 参考訳(メタデータ) (2026-05-27T08:14:07Z) - ChainzRule: Sample-Efficient, Robust Deep Learning Across Tabular, NLP, and Vision Tasks [0.0]
エンタープライズドメイン全体にわたるディープラーニングシステムは、学術ベンチマークが不明瞭な制約の下で運用される。
本稿では、典型的なアクティベーションを微分正規化(DREG)によって制御される学習可能な層に置き換えるニューラルネットワークChainzRule(CR)を提案する。
CRは、ピマ糖尿病で85.71% pm 2.01%$、凍結エンコーダでSST-5の感情分類で46.20% pm 0.37%$、パラメータが3.2Mの完全順序回帰で70.17%$を達成している。
論文 参考訳(メタデータ) (2026-05-23T01:52:50Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - Invisible Orchestrators Suppress Protective Behavior and Dissociate Power-Holders: Safety Risks in Multi-Agent LLM Systems [0.0]
オーケストラの可視性の安全性は、経験的に検証されたことはない。
3つの組織構造を横断する3x2実験を事前登録した。
目に見えない 組織的解離 可視的指導力に対する
論文 参考訳(メタデータ) (2026-03-17T03:18:57Z) - Token Coherence: Adapting MESI Cache Protocols to Minimize Synchronization Overhead in Multi-Agent LLM Systems [0.0]
マルチエージェントLLMオーケストレーションは、エージェント、ステップ、アーティファクトサイズにおいて、単純なブロードキャストの下でO(n x S x |D|)としてスケールする。
この病理は完全状態再放送の構造的残余であり、マルチエージェント協調の固有の性質ではないと私は主張する。
私はArtifact Coherence System(ACS)を構築し、Token Coherence Theoremを証明します。
論文 参考訳(メタデータ) (2026-03-16T12:20:06Z) - The Bureaucracy of Speed: Structural Equivalence Between Memory Consistency Models and Multi-Agent Authorization Revocation [0.0]
我々はアイデンティティとアクセス管理のための能力コヒーレンスシステムを開発した。
安全定理は、実行カウント リリース 一貫性指向のコヒーレンス戦略に対する無許可の操作を束縛する。
ティックベースの離散イベントシミュレーションは、機能ごとの安全性を保証する。
論文 参考訳(メタデータ) (2026-03-10T16:37:02Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Refined Sample Complexity for Markov Games with Independent Linear Function Approximation [49.5660193419984]
マルコフゲーム(MG)はマルチエージェント強化学習(MARL)の重要なモデルである
本稿では、WangらによるAVLPRフレームワークを改良し(2023年)、最適部分ギャップの悲観的推定を設計する。
マルチエージェントの呪いに取り組み、最適な$O(T-1/2)収束率を達成し、同時に$textpoly(A_max)$依存性を避ける最初のアルゴリズムを与える。
論文 参考訳(メタデータ) (2024-02-11T01:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。