論文の概要: RAT: RunAnyThing via Fully Automated Environment Configuration
- arxiv url: http://arxiv.org/abs/2604.23190v1
- Date: Sat, 25 Apr 2026 07:45:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-28 17:12:07.198253
- Title: RAT: RunAnyThing via Fully Automated Environment Configuration
- Title(参考訳): RAT: 完全に自動化された環境設定によるRunAnyThing
- Authors: Renhong Huang, Dongdong Hua, Yifei Sun, Sitao Ding, Hanyang Yuan, Daixin Wang, Yang Yang,
- Abstract要約: RAT(RunAnyThing)は、任意のリポジトリ上で環境設定を自動化するための言語に依存しないフレームワークである。
RATは最先端の性能を実現し,環境設定成功率(ESSR)を,強いベースラインよりも平均29.6%向上することを示す。
- 参考スコア(独自算出の注目度): 10.673596948238904
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automating repository-level software engineering tasks is a foundational challenge for autonomous code agents, largely due to the difficulty of configuring executable environments. However, manual configuration remains a labor-intensive bottleneck, necessitating a transition toward fully automated environment configuration. Existing approaches often rely on pre-defined artifacts or are restricted to specific programming languages, limiting their applicability to real-world repositories. In this paper, we first propose RAT (RunAnyThing), a language-agnostic framework for automated environment configuration on arbitrary repositories. RAT features a multi-stage pipeline that integrates semantic initialization, a planning mechanism, specialized toolset, and a robust sandbox for configuration. Furthermore, to enable rigorous evaluation, we propose RATBench, a benchmark that reflects the the distribution and heterogeneity of real-world repositories. Extensive experiments demonstrate that RAT achieves state-of-the-art performance, improving the Environment Setup Success Rate (ESSR) by an average of 29.6% over strong baselines.
- Abstract(参考訳): リポジトリレベルのソフトウェアエンジニアリングタスクの自動化は、自律的なコードエージェントの基本的な課題である。
しかし、手動構成は依然として労働集約的なボトルネックであり、完全に自動化された環境構成への移行を必要とする。
既存のアプローチは、しばしば事前に定義されたアーティファクトに依存するか、特定のプログラミング言語に制限される。
本稿ではまず,任意のリポジトリ上の環境設定を自動化するための言語に依存しないフレームワークであるRAT(RunAnyThing)を提案する。
RATは、セマンティック初期化と計画メカニズム、特別なツールセット、構成のための堅牢なサンドボックスを統合するマルチステージパイプラインを備えている。
さらに、厳密な評価を可能にするために、実世界のリポジトリの分布と不均一性を反映したベンチマークであるRATBenchを提案する。
大規模な実験により、RATは最先端のパフォーマンスを達成し、強いベースラインに対して平均29.6%の環境設定成功率(ESSR)を改善した。
関連論文リスト
- RepoLaunch: Automating Build&Test Pipeline of Code Repositories on ANY Language and ANY Platform [49.43594274832262]
RepoLaunchは、依存関係を自動的に解決し、ソースコードをコンパイルし、任意のプログラミング言語やオペレーティングシステムにわたるリポジトリのテスト結果を抽出できる最初のエージェントである。
RepoLaunchは残りのステップを自動化し、スケーラブルなベンチマークとコーディングエージェントとLLMのトレーニングを可能にする。
論文 参考訳(メタデータ) (2026-03-05T10:15:13Z) - HerAgent: Rethinking the Automated Environment Deployment via Hierarchical Test Pyramid [15.944450159856602]
環境設定の成功は、単一のバイナリ信号ではなく、実行可能なエビデンスによって評価されるべきである。
本稿では,実行環境を段階的に構築する自動環境設定手法であるHerAgentを提案する。
論文 参考訳(メタデータ) (2026-02-08T08:57:05Z) - SWE-Universe: Scale Real-World Verifiable Environments to Millions [84.63665266236963]
SWE-Universeは、GitHubのプルリクエスト(PR)から検証可能な環境を自動的に構築するフレームワークである。
本稿では, 自動建築の課題を克服するために, 効率的なカスタムトレーニングモデルを用いた建築エージェントを提案する。
大規模エージェントによる中等教育と強化学習を通じて,環境の重要さを実証する。
論文 参考訳(メタデータ) (2026-02-02T17:20:30Z) - ABC-Bench: Benchmarking Agentic Backend Coding in Real-World Development [72.4729759618632]
本稿では,現実的かつ実行可能なワークフロー内でエージェントバックエンドコーディングを評価するベンチマークであるABC-Benchを紹介する。
オープンソースリポジトリから8つの言語と19のフレームワークにまたがる224の実践的なタスクをキュレートしました。
我々の評価は、最先端モデルでさえ、これらの総合的なタスクに対して信頼性の高いパフォーマンスを提供するのに苦労していることを示している。
論文 参考訳(メタデータ) (2026-01-16T08:23:52Z) - Process-Level Trajectory Evaluation for Environment Configuration in Software Engineering Agents [71.85020581835042]
大規模言語モデルベースのエージェントは、ソフトウェアエンジニアリングの約束を示すが、環境構成はボトルネックのままである。
既存のベンチマークでは、エンドツーエンドのビルド/テストの成功のみを評価し、エージェントが成功または失敗する場所と理由を見極めている。
本研究では,環境設定計画中の細粒度エージェントのプロセスレベルの軌道評価を行うEnconda-benchを紹介する。
論文 参考訳(メタデータ) (2025-10-29T16:59:07Z) - PIPer: On-Device Environment Setup via Online Reinforcement Learning [74.52354321028493]
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
論文 参考訳(メタデータ) (2025-09-29T20:03:05Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。