論文の概要: Scaling Laws for Agent Harnesses via Effective Feedback Compute
- arxiv url: http://arxiv.org/abs/2605.29682v1
- Date: Thu, 28 May 2026 09:45:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.154628
- Title: Scaling Laws for Agent Harnesses via Effective Feedback Compute
- Title(参考訳): 効果的なフィードバック計算によるエージェントハーネスのスケーリング法則
- Authors: Xuanliang Zhang, Dingzirui Wang, Keyan Xu, Qingfu Zhu, Wanxiang Che,
- Abstract要約: emphEffective Feedback Compute (EFC)は、情報的、有効、非冗長な場合にのみフィードバックを信用し、その後の決定のために保持するトレースレベルのスケーリング座標である。
EFCベースの座標は、生の計算ベースラインよりも失敗率を常に予測する。
- 参考スコア(独自算出の注目度): 53.68149869349268
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Agent harnesses increasingly determine the performance of language-model systems by deciding how models call tools, receive feedback, verify intermediate states, store memory, and revise solutions. Yet current test-time scaling analyses often parameterize this process by raw expenditure -- tokens, tool calls, operations, wall time, or cost -- which does not distinguish useful feedback from redundant or unstable interaction. We introduce \emph{Effective Feedback Compute} (EFC), a trace-level scaling coordinate that credits feedback only when it is informative, valid, non-redundant, and retained for subsequent decisions, and we normalize it by task demand when comparing tasks with different feedback requirements. Across synthetic controllable tasks, executable code tasks, real benchmark traces, held-out splits, and a prospective validation batch, EFC-based coordinates consistently predict failure rates better than raw-compute baselines and a strong multivariate SAS baseline. In controlled scaling, raw tokens and tool calls explain limited variation ($R^2=0.33$ and $0.42$), SAS reaches $0.88$, while Oracle-EFC and Estimated-EFC reach $0.94$ and Oracle-EFC/$D_{\mathrm{task}}$ reaches $0.99$. Matched-budget interventions show that improving feedback quality raises success from $0.27$ to $0.90$ while raw cost and tool calls are fixed. On mixed real traces, NRS-EFC/$D_{\mathrm{task}}$ reaches $R^2=0.92$ while raw compute has near-zero or negative fit, and it remains the best predictor in a prospective holdout ($R^2=0.85$). These results suggest that harness scaling is governed less by how much computation is spent than by how efficiently raw budget is converted into durable, task-sufficient feedback.
- Abstract(参考訳): エージェントハーネスは、モデルがどのようにツールを呼び出すかを決定し、フィードバックを受け取り、中間状態の検証、メモリの保存、ソリューションの修正によって、言語モデルシステムのパフォーマンスをますます決定します。
しかし、現在のテスト時間のスケーリング分析は、しばしば、トークン、ツールコール、オペレーション、壁時間、コストといった生の支出によってこのプロセスをパラメータ化します。
EFC(emph{Effective Feedback Compute})は、情報、有効性、非冗長性、およびその後の意思決定にのみフィードバックを信用するトレースレベルのスケーリング座標であり、タスクを異なるフィードバック要求と比較する際にタスク要求によって正規化する。
合成制御可能なタスク、実行可能なコードタスク、実際のベンチマークトレース、ホールトアウトスプリット、予測検証バッチなど、EFCベースの座標は、生の計算ベースラインと強力な多変量SASベースラインよりも一貫して障害率を予測します。
R^2=0.33$と0.42$)、SASは0.88$、Oracle-EFCとEstimated-EFCは0.94$、Oracle-EFC/$D_{\mathrm{task}}$は0.99$である。
一致した予算の介入は、フィードバック品質の改善が成功を0.27ドルから0.90ドルに引き上げ、生のコストとツールコールが固定されることを示している。
混合実トレースでは、NRS-EFC/$D_{\mathrm{task}}$が$R^2=0.92$に達する。
これらの結果から, 資源予算を持続的かつタスクに十分なフィードバックにいかに効率的に変換するかよりも, スケールの効率は, どれだけの計算に費やされているかによって制御されることが示唆された。
関連論文リスト
- ComplexMCP: Evaluation of LLM Agents in Dynamic, Interdependent, and Large-Scale Tool Sandbox [61.862814740220806]
$textbfComplexMCP$は厳格な条件下でエージェントを評価するために設計されたベンチマークである。
Model Context Protocol (MCP)上に構築された$textbfComplexMCP$は300以上の精巧にテストされたツールを提供する。
論文 参考訳(メタデータ) (2026-05-11T16:20:51Z) - RubricRefine: Improving Tool-Use Agent Reliability with Training-Free Pre-Execution Refinement [0.36165327398913766]
反復自己複製は、推論時の信頼性技術として人気がある。
しかし、コードモードツールの使用効率はフィードバック信号の構造に大きく依存する。
本稿では,事前実行型セマンティックコントラクト検証のためのトレーニング不要な手法Refineを紹介する。
論文 参考訳(メタデータ) (2026-05-10T19:57:32Z) - High-Probability Convergence in Decentralized Stochastic Optimization with Gradient Tracking [69.90407799170687]
分散最適化における高確率収束保証について検討する。
その結果, 地平線上の条件は, 比較時間と同一であることがわかった。
論文 参考訳(メタデータ) (2026-04-30T22:45:21Z) - Adaptive Test-Time Compute Allocation for Reasoning LLMs via Constrained Policy Optimization [18.737087162461563]
テストタイムの計算スケーリングは、大規模言語モデルのパフォーマンスを向上させるための強力なレバーとなっている。
しかし、これらのテクニックを有限の推論予算の下で展開するには、現在のシステムがほとんど無視する決定が必要である。
我々はこれを制約付き最適化問題(平均計算予算の予測精度を最大化する)として定式化し、2段階のソルベ・テン・ラーンパイプラインで解いた。
論文 参考訳(メタデータ) (2026-04-16T10:39:22Z) - $V_1$: Unifying Generation and Self-Verification for Parallel Reasoners [69.66089681814013]
$V_$は、効率的なペアワイドランキングを通じて生成と検証を統合するフレームワークである。
V_$-Inferはポイントワイド検証でPass@1を最大10%改善する。
V_$-PairRLは、標準のRLとポイントワイドのジョイントトレーニングよりも、テストタイムのスケーリングが7ドル--9%で向上する。
論文 参考訳(メタデータ) (2026-03-04T17:22:16Z) - Phase Transition for Budgeted Multi-Agent Synergy [41.486076708302456]
マルチエージェントシステムは信頼性を向上させることができるが、固定された推論予算の下では、しばしば役立つか、飽和するか、崩壊するかさえある。
我々は、現代のエージェントスタックの3つの束縛制約からこれらの状態を予測する最小限の校正可能な理論を開発する。
論文 参考訳(メタデータ) (2026-01-24T05:32:50Z) - ZIP-RC: Optimizing Test-Time Compute via Zero-Overhead Joint Reward-Cost Prediction [57.799425838564]
ZIP-RCは、モデルに報酬とコストのゼロオーバーヘッド推論時間予測を持たせる適応推論手法である。
ZIP-RCは、同じまたはより低い平均コストで過半数投票よりも最大12%精度が向上する。
論文 参考訳(メタデータ) (2025-12-01T09:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。