論文の概要: What Makes Interaction Trajectories Effective for Training Terminal Agents?
- arxiv url: http://arxiv.org/abs/2606.03461v1
- Date: Tue, 02 Jun 2026 10:37:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.941909
- Title: What Makes Interaction Trajectories Effective for Training Terminal Agents?
- Title(参考訳): 相互作用軌跡がターミナルエージェントの訓練に有効か?
- Authors: Sidi Yang, Chaofan Tao, Jierun Chen, Tiezheng Yu, Ruoyu Wang, Yuxin Jiang, Yiming Du, Wendong Xu, Jing Xiong, Taiqiang Wu, Lifeng Shang, Xiaohui Li, Ngai Wong, Haoli Bai,
- Abstract要約: Terminal-Legoは、現実世界の問題を環境検証されたエージェントタスクに変換するスケーラブルなパイプラインである。
下着剤であるDeepSeek-V3.2の軌跡を微調整した学生は、はるかに強力な一般化を示している。
Qwen3-32Bは15.3kの終端レゴ軌道しか持たず、終端ベンチ2.0で24.3%のスコアを獲得し、データボリュームの30倍以上で確立された以前のSOTAのパフォーマンスと競合する。
- 参考スコア(独自算出の注目度): 55.62817294510983
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stronger code agents are commonly assumed to be superior teachers for post-training, yet this assumption remains poorly disentangled from task difficulty, harness design, and student capacity. We investigate this pedagogical link using Terminal-Lego, a scalable pipeline that transforms multi-domain real-world issues into environment-verified agentic tasks. Surprisingly, standalone performance does not dictate teaching efficacy: while Claude Opus 4.6 achieves higher scores on Terminal-Bench 2.0, students fine-tuned on trajectories from DeepSeek-V3.2, a lower-scoring agent, exhibit significantly stronger generalization. We attribute this "pedagogical paradox" to Environment-Grounded Supervision (EGS): trajectories that explicitly expose inspect-act-verify behaviors through harness-visible interactions allow students to internalize robust problem-solving routines rather than fragile action sequences. Scaling analysis reveals exceptional data efficiency: with only 15.3k Terminal-Lego trajectories, for example, Qwen3-32B achieves a 24.3% score on Terminal-Bench 2.0, rivaling previous SOTA performance established with over 30x the data volume. Our results suggest that the frontier of agent post-training lies beyond mere outcome-matching, shifting the focus toward "Harness Engineering", where the systematic design of environment-grounded interaction structures serves as the primary catalyst for reproducible and generalizable agentic intelligence.
- Abstract(参考訳): より強いコードエージェントは、ポストトレーニングの優れた教師であると一般的に考えられているが、この仮定は、タスクの難しさ、ハーネスデザイン、学生の能力からかなり遠ざかっている。
マルチドメインの実世界の問題から環境検証されたエージェントタスクへ変換するスケーラブルなパイプラインである Terminal-Lego を用いて,この教育的リンクについて検討する。
Claude Opus 4.6 は Terminal-Bench 2.0 の高得点を達成しているのに対して、低ランクエージェントである DeepSeek-V3.2 のトラジェクトリを微調整した学生は、はるかに強力な一般化を示している。
我々は,この「教育的パラドックス」を環境保護スーパービジョン(EGS: Environment-Grounded Supervision, EGS: Environment-Grounded Supervision)に当てはめている。
例えば、Qwen3-32Bは、データボリュームの30倍以上で確立された以前のSOTAのパフォーマンスに匹敵する24.3%のスコアを得る。
この結果から, エージェント・ポストトレーニングのフロンティアは単なる結果マッチング以上のものであり, 環境と接する相互作用構造の体系的設計が, 再現性および一般化可能なエージェント・インテリジェンスの主要な触媒となる「ハーネス・エンジニアリング」に焦点を移すことが示唆された。
関連論文リスト
- Terminal-World: Scaling Terminal-Agent Environments via Agent Skills [52.39713754337834]
エージェントスキルを中心的な合成プリミティブとして利用する完全自動化パイプラインである Terminal-World を紹介する。
我々は,5,723のトレーニング環境を構築し,端末-ワールド-8B/14B/32Bを6つのベンチマークで評価した。
Terminal-World-32B は Terminal-Bench 2.0 で Nemotron-Terminal-32B を +4.5 Pass@1 (31.5) で上回り、43.8 Pass@3 に達する。
論文 参考訳(メタデータ) (2026-05-20T08:14:51Z) - TCOD: Exploring Temporal Curriculum in On-Policy Distillation for Multi-turn Autonomous Agents [55.27396165691312]
マルチターンエージェント設定におけるバニラOPDの鍵となる制限を,トラジェクトリレベルKL不安定(Trajectory-Level KL Instability)と呼ぶ。
学生に露出する軌道深度を制御し,カリキュラムのスケジュールを段階的に拡張するフレームワークであるTCODを提案する。
4組の生徒と教師のペアによる実験結果から,TCODはKLのエスカレーションを軽減し,トレーニングを通してKLの安定性を高め,バニラPDよりも最大18ポイントのエージェント性能を向上させることが示された。
論文 参考訳(メタデータ) (2026-04-27T03:38:27Z) - Structured Distillation of Web Agent Capabilities Enables Generalization [33.41723014134473]
本稿では,人的アノテーションの役割に類似してWebエージェントの合成軌道生成を構築するフレームワークであるAgent-as-Annotatorsを紹介する。
Gemini 3 Proを教師として使用し、6つのWeb環境に3000のトラジェクトリを生成します。
結果、WebArenaでは41.5%が達成され、Claude 3.5 Sonnet (36.0%) や GPT-4o (31.5%) といったクローズドソースモデルを上回る結果となった。
論文 参考訳(メタデータ) (2026-04-09T04:04:15Z) - Claw-Eval: Toward Trustworthy Evaluation of Autonomous Agents [66.97968363332465]
エージェントベンチマークの3つのギャップに対処するエンドツーエンド評価スイートであるClaw-Evalを紹介した。
Claw-Evalは3つのグループにまたがる9つのカテゴリにまたがる300の人間検証タスクで構成されている。
すべてのエージェントアクションは、3つの独立したエビデンスチャネルを通じて記録される。
論文 参考訳(メタデータ) (2026-04-07T17:43:18Z) - AWorld: Orchestrating the Training Recipe for Agentic AI [35.94278765364194]
本稿では,大規模エージェント-環境相互作用のためのオープンソースシステムであるAWorldを紹介する。
タスクをクラスタに分散することで、AWorldは通常の単一ノードのシーケンシャル実行と比較して、エクスペリエンスコレクションを14.6倍高速化する。
GAIAテストセットでパス@1精度32.23%のQwen3-32Bエージェントを訓練した。
論文 参考訳(メタデータ) (2025-08-28T04:04:30Z) - Training Long-Context, Multi-Turn Software Engineering Agents with Reinforcement Learning [29.605396813225386]
マルチターン対話型タスクにおけるエージェントの訓練に強化学習をどのように利用できるかを示す。
本手法は,オープンウェイトモデルを用いた多ターン対話タスクのための有能エージェントの訓練のための実践的アプローチを提供する。
論文 参考訳(メタデータ) (2025-08-05T14:30:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。