論文の概要: Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision
- arxiv url: http://arxiv.org/abs/2604.10182v1
- Date: Sat, 11 Apr 2026 12:22:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:15.89517
- Title: Credit-Budgeted ICPC-Style Coding: When Agents Must Pay for Every Decision
- Title(参考訳): ICPCスタイルのクレジットカード型コーディング: エージェントがすべての決定に対して支払いをしなければならない時
- Authors: Lingfeng Zhou, Junhao Shi, Jin Gao, Dequan Wang,
- Abstract要約: 自律的符号化エージェントの現在の評価は、非現実的で無限資源環境を前提としている。
孤立した精度からコストを意識した問題解決へ焦点を移すため,USACOArenaを紹介した。
- 参考スコア(独自算出の注目度): 22.553482985384182
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current evaluations of autonomous coding agents assume an unrealistic, infinite-resource environment. However, real-world software engineering is a resource-bound competition. As we scale toward large agent swarms, ignoring compute and time costs risks catastrophic budget exhaustion. To shift the focus from isolated accuracy to cost-aware problem-solving, we introduce USACOArena, an interactive ACM-ICPC-style arena driven by a strict "credit" economy. Every generated token, local test, and elapsed second depletes a fixed budget, forcing agents to make strategic trade-offs. Our comprehensive profiling reveals that frontier single agents and swarms currently fail to optimally balance accuracy with these constraints, exhibiting divergent, path-dependent behaviors. Ultimately, USACOArena provides an essential dynamic training ground for developing highly efficient, resource-aware agent architectures.
- Abstract(参考訳): 自律的符号化エージェントの現在の評価は、非現実的で無限資源環境を前提としている。
しかし、現実世界のソフトウェアエンジニアリングはリソースに縛られる競争である。
大規模なエージェント群に向かってスケールするにつれて、計算と時間のコストを無視して、壊滅的な予算の枯渇を招きかねない。
本稿では,ACM-ICPCスタイルの対話型アリーナであるUSACOArenaを紹介する。
生成されたトークン、ローカルテスト、そして2番目の経過は固定された予算を減らし、エージェントは戦略的トレードオフを強制する。
我々の包括的プロファイリングは、現在フロンティアの単一エージェントとSwarmがこれらの制約と最適に正確なバランスをとることができず、異なる経路に依存した振る舞いを示すことを示している。
最終的にUSACOArenaは、高効率でリソース対応のエージェントアーキテクチャを開発するための、重要な動的トレーニング基盤を提供する。
関連論文リスト
- Real-Time AI Service Economy: A Framework for Agentic Computing Across the Continuum [10.35088918434398]
本稿では、DAGとしてモデル化されたサービス依存グラフの構造が、分散化された価格ベースのリソース割り当てが大規模に確実に機能するかどうかの主要な決定要因であることを示す。
本稿では、クロスドメインなサブグラフをリソーススライスに分割し、よりシンプルでよく構造化されたインターフェースを市場に提供するハイブリッド管理アーキテクチャを提案する。
論文 参考訳(メタデータ) (2026-03-05T19:14:54Z) - EvoRoute: Experience-Driven Self-Routing LLM Agent Systems [100.64399490164959]
EvoRouteは、静的で事前定義されたモデルの割り当てを超越する、自己進化型のモデルルーティングパラダイムである。
挑戦的なエージェントベンチマークの実験によると、既製のエージェントシステムに統合されたEvoRouteは、システムのパフォーマンスを維持または向上するだけでなく、実行コストを最大80%削減し、レイテンシを70%以上削減する。
論文 参考訳(メタデータ) (2026-01-06T04:06:46Z) - Agentic AI for Autonomous, Explainable, and Real-Time Credit Risk Decision-Making [0.0]
本稿では、エージェントAIフレームワーク、つまりAIエージェントが人間の観察者に依存しない動的信用の世界を見るシステムを提案する。
この研究は、学習を強化するマルチエージェントシステム、自然言語推論、説明可能なAIモジュール、リアルタイムデータ吸収パイプラインを導入している。
結論からは、意思決定のスピード、透明性、応答性が、従来の信用スコアモデルよりも優れていることが分かる。
論文 参考訳(メタデータ) (2025-12-22T23:30:38Z) - SWE-Effi: Re-Evaluating Software AI Agent System Effectiveness Under Resource Constraints [24.279120215338054]
ソフトウェアエンジニアリングのリーダーボードのための既存のAIは、ソリューションの正確性にのみフォーカスする。
SWE-Effiは、総合的な有効性スコアの観点からAIシステムを再評価する、新しいメトリクスのセットである。
論文 参考訳(メタデータ) (2025-09-11T21:04:10Z) - The Cost of Dynamic Reasoning: Demystifying AI Agents and Test-Time Scaling from an AI Infrastructure Perspective [3.0868637098088403]
大規模言語モデル(LLM)ベースのAIエージェントは最近、動的推論を採用することで、印象的な汎用性を示した。
本稿では,AIエージェントを包括的に分析し,リソース使用量,遅延動作,エネルギー消費,テストタイムスケーリング戦略を定量化する。
その結果,エージェントは計算量の増加によって精度が向上する一方で,急速に低下するリターン,レイテンシのばらつきの拡大,持続不可能なインフラストラクチャコストに悩まされていることがわかった。
論文 参考訳(メタデータ) (2025-06-04T14:37:54Z) - COALESCE: Economic and Security Dynamics of Skill-Based Task Outsourcing Among Team of Autonomous LLM Agents [0.0]
COALESCEは、自律型大規模言語モデル(LLM)エージェントが特定のサブタスクを、特殊で費用対効果の高いサードパーティのLCMエージェントにアウトソースできるように設計された、新しいフレームワークである。
239の理論的シミュレーションによる総合的な検証は41.8%のコスト削減の可能性を示している。
240の実際のLCMタスクにわたる大規模な実証検証により、適切なエプシロン-グレディー探索によって20.3%のコスト削減が確認された。
論文 参考訳(メタデータ) (2025-06-02T17:22:47Z) - The Real Barrier to LLM Agent Usability is Agentic ROI [110.31127571114635]
大規模言語モデル(LLM)エージェントは、人間とAIの相互作用において有望な変化を示す。
我々は、需要の高いマスマーケットアプリケーションにおいて、重要なユーザビリティギャップを強調します。
論文 参考訳(メタデータ) (2025-05-23T11:40:58Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - Learning Dynamic Mechanisms in Unknown Environments: A Reinforcement Learning Approach [123.55983746427572]
本稿では,複数ラウンドの対話を通して動的ビックレー・クラーク・グローブ(VCG)機構を回復するための新しい学習アルゴリズムを提案する。
当社のアプローチの重要な貢献は、報酬のないオンライン強化学習(RL)を取り入れて、リッチな政策分野の探索を支援することである。
論文 参考訳(メタデータ) (2022-02-25T16:17:23Z) - Explanations of Machine Learning predictions: a mandatory step for its
application to Operational Processes [61.20223338508952]
信用リスクモデリングは重要な役割を果たす。
近年,機械学習や深層学習の手法が採用されている。
この分野における説明可能性問題に LIME 手法を適用することを提案する。
論文 参考訳(メタデータ) (2020-12-30T10:27:59Z) - Decentralized Reinforcement Learning: Global Decision-Making via Local
Economic Transactions [80.49176924360499]
我々は、シーケンシャルな意思決定問題を解決するために、単純で専門的で自己関心のあるエージェントの社会を指示する枠組みを確立する。
我々は分散強化学習アルゴリズムのクラスを導出する。
我々は、より効率的な移動学習のための社会固有のモジュラー構造の潜在的な利点を実証する。
論文 参考訳(メタデータ) (2020-07-05T16:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。