論文の概要: Push Your Agent: Measuring and Enforcing Quantitative Goal Persistence in Long-Horizon LLM Agents
- arxiv url: http://arxiv.org/abs/2605.23574v1
- Date: Fri, 22 May 2026 12:44:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.349214
- Title: Push Your Agent: Measuring and Enforcing Quantitative Goal Persistence in Long-Horizon LLM Agents
- Title(参考訳): エージェントをプッシュする: 長期LDMエージェントの定量ゴール持続性の測定と強化
- Authors: Yuandao Cai, Yuzhang Zhu, Liyou Gao, Wensheng Tang, Shengchao Qin,
- Abstract要約: ロングホライズン言語エージェントは、要求されたカウントが実際に完了するまで多くの有効なローカルツールコールを行うことができるが、持続しない。
本稿では,このギャップを定量的ゴールパーシステンス(QGP)として検討する。
PushBenchはこれを、リポジトリアーティファクトコレクションと検証済みのワークユニットのベンチマークにする。
- 参考スコア(独自算出の注目度): 7.058932007120959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-horizon language agents can make many plausible local tool calls yet fail to persist until a requested count is actually complete. We study this gap as Quantitative Goal Persistence (QGP): whether an agent keeps working until an external verifier confirms enough distinct valid items. PushBench turns this into a benchmark for repository-artifact collection and verifier-backed work units, so repeated work, duplicate submissions, false completion, and progress drift are measured directly rather than hidden behind a final success flag. In matched controller comparisons, a state-tracking retrieval controller reaches 69-78% success while eliminating duplicate submissions, and a backlog-tracking work-unit controller reaches 25-50% success in settings where standard and completion-gated controllers complete no task instances. Black-box frontier-agent evaluations with Claude Code (Sonnet 4.6) and Codex CLI (gpt-5.4) solve many 50-artifact tasks but drop to 3 out of 9 successes per condition at 100 artifacts. The results show that quantitative goals stress a different reliability requirement from local task competence: agents must maintain verified progress and stop only when the requested work is complete.
- Abstract(参考訳): ロングホライズン言語エージェントは、要求されたカウントが実際に完了するまで多くの有効なローカルツールコールを行うことができるが、持続しない。
本稿では,このギャップを定量的ゴールパーシステンス(QGP)として検討する。
PushBenchは、これをリポジトリアーティファクトコレクションと検証済みの作業ユニットのベンチマークにするので、最終成功フラグの背後に隠れるのではなく、繰り返しの作業、重複のサブミッション、偽の完了、進捗のドリフトを直接計測する。
一致したコントローラ比較では、状態追跡制御コントローラは重複を排除しながら69~78%成功し、バックログ追跡作業ユニットコントローラは、標準および完了ゲートコントローラがタスクインスタンスを完了しない設定で25~50%成功する。
Claude Code (Sonnet 4.6) と Codex CLI (gpt-5.4) によるブラックボックスのフロンティアエージェント評価は、50のタスクの多くを解決しているが、100のアーティファクトで条件付きで9つの成功のうち3つに落ちている。
その結果、定量的目標が局所的なタスク能力と異なる信頼性要件を強調していることが判明した: エージェントは検証された進捗を維持し、要求された作業が完了したときのみ停止しなければならない。
関連論文リスト
- Verify-Gated Completion as Admission Control in a Governed Multi-Agent Runtime: A Bounded Architecture Case Study [0.6875312133832079]
制御されたマルチエージェントランタイムの入出力制御パターンとして,検証ゲート補完について検討する。
観測条件下では,読み取り専用検証ゲートとパケット化入力記録が検査可能で,フェールクロースされた。
論文 参考訳(メタデータ) (2026-05-18T07:52:13Z) - Good to Go: The LOOP Skill Engine That Hits 99% Success and Slashes Token Usage by 99% via One-Shot Recording and Deterministic Replay [14.181844060152367]
99%の成功率と99%のトークン削減を実現するシステムである LOOP SKILL ENGINE を提案する。
決定論的実行計画は、時間依存変数と結果依存変数をパラメータ化しながら、タスクの機能的意図をキャプチャする。
周期的エージェントタスクのベンチマークが5分から24時間に及ぶ間、Loop Skill Engineは毎月のトークン消費を93.3%--99.98%削減し、実行遅延を8.7倍削減し、出力非決定性を排除している。
論文 参考訳(メタデータ) (2026-05-14T01:05:35Z) - WildClawBench: A Benchmark for Real-World, Long-Horizon Agent Evaluation [88.10947115397971]
この研究でWildClawBenchは、6つのテーマのカテゴリにまたがる60の人間によるバイリンガルなマルチモーダルタスクのネイティブランタイムベンチマークである。
各タスクは、約8分間のウォールクロック時間と20以上のツールコールで実行されます。
グラディングはハイブリッドであり、決定論的ルールベースのチェック、副作用の環境状態監査、意味的検証のためのLLM/VLM判定を組み合わせている。
論文 参考訳(メタデータ) (2026-05-11T17:49:43Z) - Claw-Eval-Live: A Live Agent Benchmark for Evolving Real-World Workflows [67.92316850084575]
ワークフローエージェントのライブベンチマークであるClaw-Eval-Liveを紹介する。
各リリースは、公開ワークフロー要求信号から構築される。
Claw-Eval-Liveは実行トレース、監査ログ、サービス状態、実行後のワークスペースアーティファクトを記録する。
論文 参考訳(メタデータ) (2026-04-30T17:23:19Z) - VLAA-GUI: Knowing When to Stop, Recover, and Search, A Modular Framework for GUI Automation [98.38575149237442]
VLAA-GUIは3つの統合コンポーネントを中心に構築されたモジュラーGUIフレームワークである。
必須完全性検証は、UIで観測可能な成功基準と検証を、各完了ステップで実施する。
強制的なループブレーカは、繰り返し失敗した後、多層切替インタラクションモードを提供する。
論文 参考訳(メタデータ) (2026-04-23T07:42:37Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。