論文の概要: TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
- arxiv url: http://arxiv.org/abs/2602.07274v1
- Date: Fri, 06 Feb 2026 23:56:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.542655
- Title: TermiGen: High-Fidelity Environment and Robust Trajectory Synthesis for Terminal Agents
- Title(参考訳): TermiGen:端末エージェントのための高忠実環境とロバスト軌道合成
- Authors: Kaijie Zhu, Yuzhou Nie, Yijiang Li, Yiming Huang, Jialian Wu, Jiang Liu, Ximeng Sun, Zhenfei Yin, Lun Wang, Zicheng Liu, Emad Barsoum, William Yang Wang, Wenbo Guo,
- Abstract要約: TermiGenは検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインである。
TermiGen-Qwen2.5-Coder-32B は TerminalBench 上で 31.3% のパスレートを達成した。
- 参考スコア(独自算出の注目度): 70.68963723787424
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Executing complex terminal tasks remains a significant challenge for open-weight LLMs, constrained by two fundamental limitations. First, high-fidelity, executable training environments are scarce: environments synthesized from real-world repositories are not diverse and scalable, while trajectories synthesized by LLMs suffer from hallucinations. Second, standard instruction tuning uses expert trajectories that rarely exhibit simple mistakes common to smaller models. This creates a distributional mismatch, leaving student models ill-equipped to recover from their own runtime failures. To bridge these gaps, we introduce TermiGen, an end-to-end pipeline for synthesizing verifiable environments and resilient expert trajectories. Termi-Gen first generates functionally valid tasks and Docker containers via an iterative multi-agent refinement loop. Subsequently, we employ a Generator-Critic protocol that actively injects errors during trajectory collection, synthesizing data rich in error-correction cycles. Fine-tuned on this TermiGen-generated dataset, our TermiGen-Qwen2.5-Coder-32B achieves a 31.3% pass rate on TerminalBench. This establishes a new open-weights state-of-the-art, outperforming existing baselines and notably surpassing capable proprietary models such as o4-mini. Dataset is avaiable at https://github.com/ucsb-mlsec/terminal-bench-env.
- Abstract(参考訳): 複雑な端末タスクの実行は、2つの基本的な制限によって制約されるオープンウェイト LLM にとって重要な課題である。
実世界のリポジトリから合成された環境は多様でスケーラブルではなく、LLMによって合成された軌道は幻覚に悩まされる。
第二に、標準的な命令チューニングでは、より小さなモデルに共通する単純な誤りをほとんど示さない専門家の軌道を使用する。
これにより、分散ミスマッチが発生し、学生モデルは自身の実行時の障害から回復することができない。
これらのギャップを埋めるために、検証可能な環境とレジリエントな専門家軌道を合成するためのエンドツーエンドパイプラインであるTermiGenを紹介します。
Termi-Genは最初,反復的なマルチエージェントリファインメントループを通じて,機能的に有効なタスクとDockerコンテナを生成する。
次に, トラジェクトリコレクション中にエラーを積極的に注入するGenerator-Criticプロトコルを用い, 誤り訂正サイクルに富んだデータを合成する。
TermiGen-Qwen2.5-Coder-32Bは、このTermiGen生成データセットを微調整して、 TerminalBench上で31.3%のパスレートを達成した。
これにより、新しいオープンウェイトが確立され、既存のベースラインを上回り、o4-miniのような有能なプロプライエタリモデルを上回っている。
Datasetはhttps://github.com/ucsb-mlsec/terminal-bench-env.comで利用可能である。
関連論文リスト
- Beyond Quantity: Trajectory Diversity Scaling for Code Agents [51.71414642763219]
Trajectory Diversity Scalingは、コードエージェントのためのデータ合成フレームワークである。
TDScalingは、(1)実際のサービスの論理的依存関係をキャプチャするBusiness Clusterメカニズム、(2)軌道コヒーレンスを強制するブループリント駆動のマルチエージェントパラダイム、(3)ロングテールシナリオを指向する適応的な進化メカニズムの4つの革新を統合しています。
論文 参考訳(メタデータ) (2026-02-03T07:43:03Z) - MERGETUNE: Continued fine-tuning of vision-language models [77.8627788911249]
微調整視覚言語モデル(VLM)は、しばしば事前訓練された知識を破滅的に忘れてしまう。
ゼロショットモデルに適応した後に事前学習した知識を回復するための新しいパラダイムである連続微調整(CFT)を導入する。
論文 参考訳(メタデータ) (2026-01-15T15:15:53Z) - From Failure to Mastery: Generating Hard Samples for Tool-use Agents [40.331752086107265]
HardGenは、検証可能な推論を備えたハードツール使用トレーニングサンプルを生成するように設計された自動エージェントパイプラインである。
高度なツールとハードクエリにより、検証可能な複雑なChain-of-Thought(CoT)の生成が可能になる
私たちのコード、モデル、データセットは、将来の研究を促進するためにオープンソース化されます。
論文 参考訳(メタデータ) (2026-01-04T11:56:33Z) - GRASP: Guided Residual Adapters with Sample-wise Partitioning [10.504309161945065]
GRASP: サンプル分割によるガイド型残留アダプタを提案する。
長尾MIMIC-CXR-LTデータセットでは、GRASPは特に稀なクラスにおいて優れたFIDと多様性のメトリクスを得る。
論文 参考訳(メタデータ) (2025-12-01T13:43:17Z) - Agentic Reinforcement Learning for Real-World Code Repair [7.512134741776294]
実際のリポジトリで信頼性の高いコード修正エージェントをトレーニングするという課題に取り組みます。
修正後のビルド検証として成功した検証可能なパイプラインを開発しました。
大規模強化学習のためのスケーラブルな簡易パイプラインを導入した。
論文 参考訳(メタデータ) (2025-10-24T23:25:02Z) - SWE-Synth: Synthesizing Verifiable Bug-Fix Data to Enable Large Language Models in Resolving Real-World Bugs [10.70881967278009]
本稿では,現実的な検証可能な,プロセス対応のバグフィックスデータセットをリポジトリレベルで合成するフレームワークであるSWE- Synthを紹介する。
手作業で収集したデータセットと比較して、文脈的豊かさと正確さを保ちながら、最小限の人的労力でスケールする。
この結果から,APRとソフトウェア工学の自動化の最先端を推し進めるために,人工エージェント生成データの可能性を強調した。
論文 参考訳(メタデータ) (2025-04-20T22:37:43Z) - STAMP: Scalable Task And Model-agnostic Collaborative Perception [24.890993164334766]
STAMPは、異種エージェントのためのタスクおよびモデルに依存しない協調認識パイプラインである。
計算オーバーヘッドを最小限に抑え、スケーラビリティを高め、モデルのセキュリティを維持する。
第一種フレームワークとしてSTAMPは,スケーラブルでセキュアなモビリティシステムの研究を,レベル5の自律性に向けて進めることを目指している。
論文 参考訳(メタデータ) (2025-01-24T16:27:28Z) - OS-Genesis: Automating GUI Agent Trajectory Construction via Reverse Task Synthesis [55.390060529534644]
グラフィカルユーザインタフェース(GUI)エージェントのための新しいデータ合成パイプラインであるOS-Genesisを提案する。
事前に定義されたタスクに頼る代わりに、OS-Genesisはエージェントがまず環境を認識し、ステップワイドなインタラクションを実行することを可能にする。
我々は,OS-Genesisを用いたGUIエージェントのトレーニングにより,高度に挑戦するオンラインベンチマークの性能が大幅に向上することが実証された。
論文 参考訳(メタデータ) (2024-12-27T16:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。