論文の概要: DockSmith: Scaling Reliable Coding Environments via an Agentic Docker Builder
- arxiv url: http://arxiv.org/abs/2602.00592v1
- Date: Sat, 31 Jan 2026 08:16:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.275776
- Title: DockSmith: Scaling Reliable Coding Environments via an Agentic Docker Builder
- Title(参考訳): DockSmith: エージェントDockerビルダによる信頼性の高いコーディング環境のスケーリング
- Authors: Jiaran Zhang, Luck Ma, Yanhao Li, Fanqi Wan, Di Qi, Xu Zhao, Jieyi Hou, Zhe Xie, Mengqiang Ren, Xin Wu, Zhewei Huang, Liangyu Chen, Yingwei Ma, Qi Han, Xiangyu Zhang,
- Abstract要約: DockSmithは、この課題に対処するために設計された特殊なエージェントDockerビルダーである。
DockSmithは環境構築を前処理のステップとして扱う。
長期ツールの使用、依存関係の推論、障害復旧などを実行する。
- 参考スコア(独自算出の注目度): 29.04328228681592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliable Docker-based environment construction is a dominant bottleneck for scaling execution-grounded training and evaluation of software engineering agents. We introduce DockSmith, a specialized agentic Docker builder designed to address this challenge. DockSmith treats environment construction not only as a preprocessing step, but as a core agentic capability that exercises long-horizon tool use, dependency reasoning, and failure recovery, yielding supervision that transfers beyond Docker building itself. DockSmith is trained on large-scale, execution-grounded Docker-building trajectories produced by a SWE-Factory-style pipeline augmented with a loop-detection controller and a cross-task success memory. Training a 30B-A3B model on these trajectories achieves open-source state-of-the-art performance on Multi-Docker-Eval, with 39.72% Fail-to-Pass and 58.28% Commit Rate. Moreover, DockSmith improves out-of-distribution performance on SWE-bench Verified, SWE-bench Multilingual, and Terminal-Bench 2.0, demonstrating broader agentic benefits of environment construction.
- Abstract(参考訳): 信頼性の高いDockerベースの環境構築は、実行ベーストレーニングのスケールアップとソフトウェアエンジニアリングエージェントの評価において、主要なボトルネックとなっている。
この課題に対処するために設計された、特殊なエージェントDockerビルダーであるDockSmithを紹介します。
DockSmithは環境構築を前処理のステップとして扱うだけでなく、長期ツールの使用、依存性の推論、障害回復を実行する中核的なエージェント機能として扱うことで、Docker自身をビルドする以外の移行を監督する。
DockSmithは、ループ検出コントローラとクロスタスク成功メモリを備えたSWE-Factoryスタイルのパイプラインによって生成された、大規模で実行基盤のDockerビルドトラジェクトリに基づいてトレーニングされている。
これらの軌道上で30B-A3Bモデルをトレーニングすることで、39.72%のFail-to-Passと58.28%のコミットレートで、オープンソースのマルチDocker-Evalのパフォーマンスを実現する。
さらに、DockSmithは、SWE-bench Verified、SWE-bench Multilingual、Terminal-Bench 2.0のアウト・オブ・ディストリビューション性能を改善し、環境構築のより広範な効果を示す。
関連論文リスト
- Large-Scale Terminal Agentic Trajectory Generation from Dockerized Environments [36.81059045059001]
終端型タスクのトレーニングエージェントモデルは、現実的な長距離相互作用を捉える高品質な終端軌道に依存する。
我々は,Dockerに準拠したタスクインスタンスを生成し,エージェントトラジェクトリを実行可能なバリデーションコードで合成する,スケーラブルなパイプラインである textbfTerminalTraj を提案する。
TerminalTrajを使って32KのDockerイメージをキュレートし、8つのドメインにわたる50,733の認証済みターミナルトラジェクトリを生成します。
論文 参考訳(メタデータ) (2026-02-01T14:09:23Z) - WebAnchor: Anchoring Agent Planning to Stabilize Long-Horizon Web Reasoning [82.12501258760814]
大規模言語モデル(LLM)ベースのエージェントは、Web情報検索において強力な能力を示している。
Plan anchorは、長期にわたるWeb推論タスクにおいて、最初の推論ステップが下流の動作に不均等に影響を与えている場所です。
計画と実行を分離する2段階のRLフレームワークであるAnchor-GRPOを提案する。
論文 参考訳(メタデータ) (2026-01-06T16:36:40Z) - Let It Flow: Agentic Crafting on Rock and Roll, Building the ROME Model within an Open Agentic Learning Ecosystem [90.17610617854247]
本稿では,エージェントモデルの生産パイプラインを最適化する基盤インフラであるエージェント学習エコシステム(ALE)を紹介する。
ALEは、重量最適化のためのトレーニング後のフレームワークであるROLL、軌道生成のためのサンドボックス環境マネージャであるROCK、効率的なコンテキストエンジニアリングのためのエージェントフレームワークであるiFlow CLIの3つのコンポーネントで構成されている。
ROMEはALEが基盤として100万件以上のトラジェクトリをトレーニングしたオープンソースエージェントです。
論文 参考訳(メタデータ) (2025-12-31T14:03:39Z) - SkyRL-Agent: Efficient RL Training for Multi-turn LLM Agent [63.15417992240217]
本稿では,SkyRL-Agentについて紹介する。
効率的な非同期ディスパッチ、軽量ツールの統合、柔軟なバックエンドの相互運用性を提供する。
我々は、Qwen3-32B (24.4% Pass@1)からトレーニングを受けたソフトウェアエンジニアリングエージェントであるSA-SWE-32Bを、純粋に強化学習で訓練する。
論文 参考訳(メタデータ) (2025-11-20T07:05:19Z) - SWE-smith: Scaling Data for Software Engineering Agents [100.30273957706237]
SWE-smithは、大規模なソフトウェアエンジニアリングトレーニングデータを生成するための新しいパイプラインである。
128のGitHubリポジトリからソースされた50kインスタンスのデータセットを作成します。
我々はSWE-agent-LM-32Bをトレーニングし、SWE-bench Verifiedベンチマークで40.2%のPass@1リゾルバ率を達成した。
論文 参考訳(メタデータ) (2025-04-30T16:56:06Z) - Repo2Run: Automated Building Executable Environment for Code Repository at Scale [10.143091612327602]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z) - Refactoring for Dockerfile Quality: A Dive into Developer Practices and Automation Potential [0.0]
本稿では,358のオープンソースプロジェクトの600fileを使用したDockerfileの自動化の有用性と実用性について検討する。
提案手法では,画像サイズが平均32%減少し,ビルド期間が6%減少し,77%,91%の症例で理解性と保守性が向上した。
論文 参考訳(メタデータ) (2025-01-23T23:10:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。