論文の概要: ECHO: Terminal Agents Learn World Models for Free
- arxiv url: http://arxiv.org/abs/2605.24517v1
- Date: Sat, 23 May 2026 11:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:18.153791
- Title: ECHO: Terminal Agents Learn World Models for Free
- Title(参考訳): ECHO: ターミナルエージェントは無償で世界モデルを学ぶ
- Authors: Vaishnavi Shrivastava, Piero Kauffmann, Ahmed Awadallah, Dimitris Papailiopoulos,
- Abstract要約: ECHO (Environment Cross-Entropy Hybrid Objective) は、アクショントークンに対する標準的なポリシー段階の損失と、環境観測トークンを予測するためのポリシーを訓練する補助的な損失とを組み合わせたハイブリッドな目的である。
ECHOは、発生しない軌道であっても、ターミナルダイナミクスをより正確に予測するポリシーを生成する。
- 参考スコア(独自算出の注目度): 13.305830192059625
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CLI agents are the closest thing language models have to an embodied setting: the model emits commands, the terminal executes them, and the returned stream -- stdout, errors, files, logs, and traces -- records the consequences. We argue that this stream is a supervision signal, but standard agent RL discards it: GRPO-style training updates action tokens with sparse outcome-level rewards while ignoring environment responses already in the rollout. Failed rollouts provide little policy-gradient signal despite containing rich evidence about how the environment responds. We introduce ECHO (Environment Cross-entropy Hybrid Objective), a hybrid objective that combines the standard policy-gradient loss on action tokens with an auxiliary loss that trains the policy to predict environment observation tokens resulting from its own actions. ECHO reuses the same forward pass as GRPO, requires no additional rollouts, and turns terminal feedback into dense supervision for all rollouts. ECHO doubles GRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves from 2.70% to 5.17%, and Qwen3-14B from 5.17% to 10.79%. ECHO also produces policies that better predict terminal dynamics, even on trajectories they did not generate: across held-out rollouts, it sharply reduces environment-token cross-entropy while GRPO alone barely changes it. From base Qwen3-8B, ECHO matches expert-SFT-then-GRPO performance on held-out terminal tasks without expert demonstrations, and recovers roughly half of the expert-SFT initialization benefit on TerminalBench-2.0. In some settings, the environment prediction loss alone enables verifier-free self-improvement, allowing policies to improve on unseen OOD tasks by learning only from environment interactions. Together, these results suggest that environment observations are not merely context for future actions, but a dense, on-policy supervision signal already present in every rollout.
- Abstract(参考訳): モデルがコマンドを出力し、端末がそれを実行し、返されるストリーム -- stdout、エラー、ファイル、ログ、トレース -- が結果を記録する。
GRPOスタイルのトレーニングは、すでにロールアウト中の環境応答を無視しながら、少ない結果レベルの報酬でアクショントークンを更新します。
失敗に終わったロールアウトは、環境がどのように反応するかについての豊富な証拠を含むにもかかわらず、政策の緩やかなシグナルをほとんど提供しない。
環境横断型ハイブリッドオブジェクト(ECHO:Environment Cross-Entropy Hybrid Objective)は,アクショントークンに対する標準ポリシー段階の損失と,そのアクションから生じる環境観測トークンを予測するためのポリシーを訓練する補助的損失とを組み合わせたハイブリッド目的である。
ECHOはGRPOと同じ前方パスを再利用し、追加のロールアウトを必要としない。
ECHOはGRPO pass@1 on TerminalBench-2.0: Qwen3-8B improves 2.70% to 5.17%, Qwen3-14B to 5.17% to 10.79%である。
ECHOはまた、それらが生成しなかった軌道であっても、ターミナルダイナミクスをより正確に予測するポリシーも生成している。
Qwen3-8B ベースから、ECHO は専門家のデモ無しで、専門家-SFT-then-GRPO のパフォーマンスと一致し、ターミナルベンチ2.0 のエキスパート-SFT 初期化の利点のおよそ半分を回復する。
いくつかの設定では、環境予測損失だけで検証不要な自己改善が可能であり、環境相互作用のみから学習することで、未確認のOODタスクを改善することができる。
これらの結果は、環境観測は将来の行動の文脈に留まらず、あらゆるロールアウトに既に存在する密集した政治監視信号であることを示している。
関連論文リスト
- Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Unifying Group-Relative and Self-Distillation Policy Optimization via Sample Routing [79.88256756334327]
自己蒸留政策最適化(SDPO)は、より密集したロジットレベルの監視を提供することによってこの問題に対処する。
サンプル制御ポリシー最適化(SRPO)を提案する。
SRPOは、試料をGRPOの報酬整合強化に向け、サンプルをSDPOの目標ロジットレベルの補正に向ける。
論文 参考訳(メタデータ) (2026-04-02T17:29:18Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - WS-GRPO: Weakly-Supervised Group-Relative Policy Optimization for Rollout-Efficient Reasoning [67.45237332694025]
グループ相対政策最適化は、複雑な推論に基づいて言語モデルを訓練するのに効果的である。
Weakly Supervised GRPOを提案し、端末報酬を正当性を考慮したガイダンスに変換することにより、ロールアウト効率を向上させる。
論文 参考訳(メタデータ) (2026-02-19T02:43:35Z) - STAPO: Stabilizing Reinforcement Learning for LLMs by Silencing Rare Spurious Tokens [38.425692691443764]
既存の強化学習(RL)ファインチューニング手法は、安定性を維持するためにエントロピー正則化と再重み付けに大きく依存している。
実際には、彼らはしばしば後期的なパフォーマンスの崩壊に悩まされ、推論品質の低下と不安定なトレーニングにつながります。
トレーニングの不安定性は、約0.01%の少量のトークンによって引き起こされる可能性がある。
安定かつ効果的な大規模モデル改良を促進するSTAPO(Spurious-Token-Aware Policy Optimization)を提案する。
論文 参考訳(メタデータ) (2026-02-17T14:46:48Z) - iGRPO: Self-Feedback-Driven LLM Reasoning [88.83313431248473]
大規模言語モデル(LLM)は複雑な数学的問題を解く上で有望であるが、正確で一貫したソリューションを生み出すには至っていない。
IGRPO(Iterative Group Relative Policy Optimization)は、モデル生成ドラフトを通じて動的自己条件を追加するGRPOの2段階拡張である。
一致するロールアウト予算の下では、iGRPOはGRPOをベースモデルで一貫して上回っている。
論文 参考訳(メタデータ) (2026-02-09T18:45:11Z) - GTPO: Trajectory-Based Policy Optimization in Large Language Models [42.60363805227946]
政策に基づく最適化は、今日の言語モデルのトレーニングとアライメントに広く採用されている。
本稿では,GRPOの2つの大きな限界を明らかにし,解析する。
コンフリクトトークンを識別するGTPOを導入する。
論文 参考訳(メタデータ) (2025-08-05T08:15:01Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。