論文の概要: SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents
- arxiv url: http://arxiv.org/abs/2602.11210v1
- Date: Wed, 11 Feb 2026 02:33:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.448981
- Title: SWE-MiniSandbox: Container-Free Reinforcement Learning for Building Software Engineering Agents
- Title(参考訳): SWE-MiniSandbox: ソフトウェアエンジニアリングエージェント構築のためのコンテナフリー強化学習
- Authors: Danlong Yuan, Wei Wu, Zhengren Wang, Xueliang Zhao, Huishuai Zhang, Dongyan Zhao,
- Abstract要約: 強化学習(RL)は、ソフトウェア工学(SWE)エージェントを訓練するための重要なパラダイムとなっている。
既存のパイプラインは通常、分離のためにタスク単位のコンテナに依存します。
分離を犠牲にすることなく,SWEエージェントのスケーラブルなRLトレーニングを可能にする,コンテナフリーなSWE-MiniSandboxを提案する。
- 参考スコア(独自算出の注目度): 44.0779548943909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) has become a key paradigm for training software engineering (SWE) agents, but existing pipelines typically rely on per-task containers for isolation. At scale, pre-built container images incur substantial storage overhead, slow environment setup, and require container-management privileges. We propose SWE-MiniSandbox, a lightweight, container-free method that enables scalable RL training of SWE agents without sacrificing isolation. Instead of relying on per-instance containers, SWE-MiniSandbox executes each task in an isolated workspace backed by kernel-level mechanisms, substantially reducing system overhead. It leverages lightweight environment pre-caching techniques to eliminate the need for bulky container images. As a result, our approach lowers disk usage to approximately 5\% of that required by container-based pipelines and reduces environment preparation time to about 25\% of the container baseline. Empirical results demonstrate that SWE-MiniSandbox achieves evaluation performance comparable to standard container-based pipelines. By removing the dependency on heavy container infrastructure, SWE-MiniSandbox offers a practical and accessible foundation for scaling RL-based SWE agents, particularly in resource-constrained research environments.
- Abstract(参考訳): 強化学習(RL)は、ソフトウェアエンジニアリング(SWE)エージェントをトレーニングするための重要なパラダイムとなっているが、既存のパイプラインは通常、分離するためにタスク単位のコンテナに依存している。
大規模に構築されたコンテナイメージは、大幅なストレージオーバーヘッド、環境設定の遅い、コンテナ管理権限を必要とする。
分離を犠牲にすることなく、SWEエージェントのスケーラブルなRLトレーニングを可能にする軽量でコンテナフリーなSWE-MiniSandboxを提案する。
インスタンス単位のコンテナに頼る代わりに、SWE-MiniSandboxはカーネルレベルのメカニズムに裏打ちされた独立したワークスペースで各タスクを実行することで、システムのオーバーヘッドを大幅に削減する。
軽量環境のプリキャッシュ技術を活用して、大量のコンテナイメージを不要にする。
その結果、コンテナベースのパイプラインに必要なディスク使用量を約5倍に削減し、環境準備時間をコンテナベースラインの約25倍に削減した。
実証的な結果は、SWE-MiniSandboxが標準的なコンテナベースのパイプラインに匹敵する評価性能を達成することを示している。
重いコンテナインフラストラクチャへの依存を取り除くことで、SWE-MiniSandboxは、特にリソース制約のある研究環境において、RLベースのSWEエージェントをスケールするための実用的でアクセスしやすい基盤を提供する。
関連論文リスト
- SWE-World: Building Software Engineering Agents in Docker-Free Environments [91.17484806743641]
SWE-Worldは、物理的な実行環境を、ソフトウェアエンジニアリングエージェントのトレーニングと評価のための学習的なサロゲートに置き換える、Dockerフリーのフレームワークである。
我々は,SWE-WorldがQwen2.5-Coder-32Bを,DockerフリーのSFTで6.2%から52.0%,DockerフリーのRLで55.0%,さらにTSで68.2%に引き上げたことを示す。
論文 参考訳(メタデータ) (2026-02-03T11:44:39Z) - SWE-Master: Unleashing the Potential of Software Engineering Agents via Post-Training [78.37721886775215]
本稿では,効率的なソフトウェアエンジニアリングエージェントを構築するためのオープンソースフレームワークであるSWE-Masterを紹介する。
SWE-Masterは、教師-軌道合成やデータキュレーションを含む、完全なエージェント開発パイプラインを体系的に探索する。
SWE-bench Verified(SWE-bench Verified)は,現実的なソフトウェアエンジニアリングタスクの標準ベンチマークである。
論文 参考訳(メタデータ) (2026-02-03T11:38:48Z) - Arca: A Lightweight Confidential Container Architecture for Cloud-Native Environments [25.443755388774832]
私たちは、TEE-in-Containerアーキテクチャに基づいた軽量な機密コンテナフレームワークであるArcaを紹介します。
Arcaは、各ワークロードを独立したハードウェア強化信頼ドメインに分離する。
我々はIntel SGX、Intel TDX、AMD SEVにArcaを実装した。
論文 参考訳(メタデータ) (2026-01-03T15:42:20Z) - Simulating Environments with Reasoning Models for Agent Training [55.98861707136674]
トレーニング用の起動環境の構築は重く、脆く、進捗を制限します。
我々はSimia-SFTとSimia-RLの2つのフレームワークを提案する。
Simia-SFTとSimia-RLは、環境工学を使わずにスケーラブルなエージェントトレーニングを可能にする。
論文 参考訳(メタデータ) (2025-11-03T18:29:57Z) - WEBSERV: A Browser-Server Environment for Efficient Training of Reinforcement Learning-based Web Agents at Scale [24.98872156421692]
強化学習(RL) Webエージェントの訓練と評価が注目されている。
既存の環境は、過度でノイズの多いコンテキストでポリシーモデルを圧倒します。
我々は、コンテキストとアクションの複雑さのバランスをとるサイトに依存しないブラウザ環境であるWEBSERVを提案する。
論文 参考訳(メタデータ) (2025-10-17T22:54:33Z) - RepoForge: Training a SOTA Fast-thinking SWE Agent with an End-to-End Data Curation Pipeline Synergizing SFT and RL at Scale [15.199441664697988]
トレーニングソフトウェアエンジニアリング(SWE) LLMは、高価なインフラストラクチャ、非効率な評価パイプライン、少ないトレーニングデータ、高価な品質管理によってボトルネックになっている。
本稿では,SWEエージェントを大規模に生成し,評価し,訓練する,自律的なエンドツーエンドパイプラインであるRepoForgeを紹介する。
論文 参考訳(メタデータ) (2025-08-03T02:34:16Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z) - The Cure is in the Cause: A Filesystem for Container Debloating [3.072029094326428]
トップダウンのコンテナの50%以上が60%以上肥大化しており、BAFFSはコンテナのサイズを大幅に削減している。
サーバレス機能の場合、BAFFSはコールドスタートのレイテンシを最大68%削減する。
論文 参考訳(メタデータ) (2023-05-08T11:41:30Z) - Efficient Parallel Split Learning over Resource-constrained Wireless
Edge Networks [44.37047471448793]
本稿では,エッジコンピューティングパラダイムと並列分割学習(PSL)の統合を提唱する。
そこで本研究では,モデル学習を高速化するために,効率的な並列分割学習(EPSL)という革新的なPSLフレームワークを提案する。
提案するEPSLフレームワークは,目標精度を達成するために必要なトレーニング遅延を著しく低減することを示す。
論文 参考訳(メタデータ) (2023-03-26T16:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。