論文の概要: Hybrid-Gym: Training Coding Agents to Generalize Across Tasks
- arxiv url: http://arxiv.org/abs/2602.16819v1
- Date: Wed, 18 Feb 2026 19:30:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:28.31033
- Title: Hybrid-Gym: Training Coding Agents to Generalize Across Tasks
- Title(参考訳): ハイブリッドGym:タスクを一般化するためのコーディングエージェントのトレーニング
- Authors: Yiqing Xie, Emmy Liu, Gaokai Zhang, Nachiket Kotalwar, Shubham Gandhi, Sathwik Acharya, Xingyao Wang, Carolyn Rose, Graham Neubig, Daniel Fried,
- Abstract要約: 本稿では,多種多様なタスク間で共有される伝達可能なスキルについて述べる。
本稿では,スケーラブルな合成タスクからなる学習環境であるHybrid-Gymを提案する。
実験により、我々の合成タスクで訓練されたエージェントが、様々な現実世界のタスクを効果的に一般化できることが示されている。
- 参考スコア(独自算出の注目度): 59.95803522351185
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When assessing the quality of coding agents, predominant benchmarks focus on solving single issues on GitHub, such as SWE-Bench. In contrast, in real use, these agents solve more various and complex tasks that involve other skills such as exploring codebases, testing software, and designing architecture. In this paper, we first characterize some transferable skills that are shared across diverse tasks by decomposing trajectories into fine-grained components, and derive a set of principles for designing auxiliary training tasks to teach language models these skills. Guided by these principles, we propose a training environment, Hybrid-Gym, consisting of a set of scalable synthetic tasks, such as function localization and dependency search. Experiments show that agents trained on our synthetic tasks effectively generalize to diverse real-world tasks that are not present in training, improving a base model by 25.4% absolute gain on SWE-Bench Verified, 7.9% on SWT-Bench Verified, and 5.1% on Commit-0 Lite. Hybrid-Gym also complements datasets built for the downstream tasks (e.g., improving SWE-Play by 4.9% on SWT-Bench Verified). Code available at: https://github.com/yiqingxyq/Hybrid-Gym.
- Abstract(参考訳): コーディングエージェントの品質を評価する場合、主要なベンチマークはSWE-BenchのようなGitHub上の単一問題の解決に重点を置いている。
対照的に、実際の使用においては、これらのエージェントはコードベースの探索、ソフトウェアのテスト、アーキテクチャの設計といった他のスキルを含む、より多種多様な複雑なタスクを解決します。
本稿では,まず,軌道を細粒度に分解することで,様々なタスク間で共有される伝達可能なスキルを特徴付けるとともに,これらのスキルを言語モデルに教えるための補助訓練タスクを設計するための一連の原則を導出する。
これらの原則に基づき,関数ローカライゼーションや依存性探索など,スケーラブルな合成タスクからなる学習環境であるHybrid-Gymを提案する。
SWE-Bench Verifiedは25.4%、SWT-Bench Verifiedは7.9%、Commit-0 Liteは5.1%向上した。
Hybrid-Gymはまた、下流タスク用に構築されたデータセットを補完する(例えば、SWT-Bench Verified上でSWE-Playを4.9%改善する)。
コードは、https://github.com/yiqingxyq/Hybrid-Gym.comで入手できる。
関連論文リスト
- Training Versatile Coding Agents in Synthetic Environments [44.5849223659282]
環境と軌道を生成する新しいパイプラインであるSWE-Playgroundを紹介する。
SWE-Playgroundは、強力な言語モデルとエージェントでゼロからプロジェクトとタスクを合成する。
これにより、ユニットテストを生成したり、スクラッチからライブラリを実装することで、問題の再現など、より広範なコーディングタスクに取り組むことができます。
論文 参考訳(メタデータ) (2025-12-13T07:02:28Z) - GitTaskBench: A Benchmark for Code Agents Solving Real-World Tasks Through Code Repository Leveraging [41.754784344572286]
実際のシナリオでコードエージェントを評価するベンチマークであるGitTaskBenchをリリースしています。
各タスクは、自動化された人為的な評価ハーネスと関連するリポジトリをペアリングする。
また,エージェント性能の経済的利益を定量化するためのα値指標を提案する。
論文 参考訳(メタデータ) (2025-08-26T12:48:05Z) - MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are
Better Dense Retrievers [140.0479479231558]
本研究では,様々な事前学習タスクをマルチタスク事前学習モデル(MASTER)に統合することを目的とする。
MASTERは共有エンコーダのマルチデコーダアーキテクチャを利用して、タスク全体にわたる豊富なセマンティック情報を高密度ベクトルに圧縮する表現ボトルネックを構築することができる。
論文 参考訳(メタデータ) (2022-12-15T13:57:07Z) - Multi-Task Retrieval-Augmented Text Generation with Relevance Sampling [19.17759446168802]
知識集約型タスクに対する検索強化生成モデルのマルチタスク学習について検討する。
我々は、ペアが知識ベースで答えられるかどうかに関わらず、関連ラベルに対する信頼のしきい値を通じてトレーニング例をフィルタリングする。
論文 参考訳(メタデータ) (2022-07-07T00:57:02Z) - KnowDA: All-in-One Knowledge Mixture Model for Data Augmentation in
Few-Shot NLP [68.43279384561352]
既存のデータ拡張アルゴリズムはタスク非依存のルールや微調整の汎用事前訓練言語モデルを利用する。
これらの手法は、簡単なタスク固有の知識を持ち、単純なタスクにおいて弱いベースラインのための低品質な合成データを得るに限られる。
我々は,様々なNLPタスクを予め学習したエンコーダ/デコーダLMの知識混合データ拡張モデル(KnowDA)を提案する。
論文 参考訳(メタデータ) (2022-06-21T11:34:02Z) - Combining Modular Skills in Multitask Learning [149.8001096811708]
モジュラー設計は、ニューラルネットワークが様々な知識の面をアンタングルして再結合し、新しいタスクにより系統的に一般化することを奨励する。
この研究では、各タスクは(潜在的に小さな)インベントリから潜在的な離散スキルのサブセットと関連付けられていると仮定する。
ネットワークのモジュラー設計により、強化学習におけるサンプル効率が著しく向上し、教師あり学習における数ショットの一般化が図られる。
論文 参考訳(メタデータ) (2022-02-28T16:07:19Z) - Environment Generation for Zero-Shot Compositional Reinforcement
Learning [105.35258025210862]
環境構成設計(CoDE)は、ジェネレータエージェントを訓練し、エージェントの現在のスキルレベルに合わせて一連の構成タスクを自動的に構築する。
我々は,複数のページや部屋からなる環境を生成することを学び,それらの環境において複雑なタスクを広範囲にこなせるRLエージェントを訓練する。
CoDEは最強のベースラインよりも4倍高い成功率を示し、3500のプリミティブタスクで学んだ実際のWebサイトのパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-01-21T21:35:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。