論文の概要: PIPer: On-Device Environment Setup via Online Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2509.25455v1
- Date: Mon, 29 Sep 2025 20:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.303656
- Title: PIPer: On-Device Environment Setup via Online Reinforcement Learning
- Title(参考訳): PIPer:オンライン強化学習によるオンデバイス環境設定
- Authors: Alexander Kovrigin, Aleksandra Eliseeva, Konstantin Grotov, Egor Bogomolov, Yaroslav Zharov,
- Abstract要約: 自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
近年の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限られた成功をおさめていることが明らかになっている。
我々は、正しいスクリプトを生成するための教師付き微調整と、環境設定のタスクに適応するために、Reinforcement Learning with Verifiable Rewards(RLVR)を組み合わせる。
EnvBench-Python では,より大型の Qwen3-32B や GPT-4 と同等に動作可能な Qwen3-8B (コンシューマハードウェア上で動作可能なモデル) を実現する。
- 参考スコア(独自算出の注目度): 74.52354321028493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Environment setup-the process of configuring the system to work with a specific software project-represents a persistent challenge in Software Engineering (SE). Automated environment setup methods could assist developers by providing fully configured environments for arbitrary repositories without manual effort. This also helps SE researchers to scale execution-based benchmarks. However, recent studies reveal that even state-of-the-art Large Language Models (LLMs) achieve limited success in automating this task. To address this limitation, we tune a specialized model for environment setup. We combine supervised fine-tuning for generating correct Bash scripts and Reinforcement Learning with Verifiable Rewards (RLVR) to adapt it to the task of environment setup. On EnvBench-Python, our method enables Qwen3-8B (a model runnable on consumer hardware) to perform on par with larger models-Qwen3-32B and GPT-4o. The training code and model checkpoints are available online: https://github.com/JetBrains-Research/PIPer.
- Abstract(参考訳): 環境設定-特定のソフトウェアプロジェクトと連携するようにシステムを構成するプロセスは、ソフトウェア工学(SE)における永続的な課題を表している。
自動化された環境設定メソッドは、任意のリポジトリに対して、手作業なしで完全に構成された環境を提供することで、開発者を支援することができる。
これはまた、SE研究者が実行ベースのベンチマークをスケールするのに役立ちます。
しかし、最近の研究では、最先端のLarge Language Models (LLMs) でさえ、このタスクの自動化に限定的な成功を収めていることが明らかになっている。
この制限に対処するため、私たちは環境設定のための特別なモデルを調整します。
我々は、正しいBashスクリプトを生成するための教師付き微調整と、RLVR(Reinforcement Learning with Verifiable Rewards)を組み合わせることで、環境設定のタスクに適応する。
EnvBench-Pythonでは,より大規模なモデルであるQwen3-32BとGPT-4oと同等に動作可能なQwen3-8B(コンシューマハードウェア上で動作可能なモデル)を実現する。
トレーニングコードとモデルチェックポイントはオンラインで公開されている。
関連論文リスト
- Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。
これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。
また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文 参考訳(メタデータ) (2025-08-12T09:45:19Z) - EnvBench: A Benchmark for Automated Environment Setup [76.02998475135824]
大規模言語モデルにより、研究者はソフトウェア工学領域における実用的なリポジトリレベルのタスクに集中できるようになった。
環境設定に関する既存の研究は革新的なエージェント戦略を導入しているが、その評価は小さなデータセットに基づいていることが多い。
このギャップに対処するため、包括的環境設定ベンチマークEnvBenchを紹介します。
論文 参考訳(メタデータ) (2025-03-18T17:19:12Z) - PyPackIT: Automated Research Software Engineering for Scientific Python Applications on GitHub [0.0]
PyPackITは、科学者がプロジェクトの科学的な側面に集中できるようにする、ユーザフレンドリーで使いやすいソフトウェアである。
PyPackITは、ビルド対応のPythonパッケージスケルトン、完全に運用されたドキュメンテーションとテストスイート、動的プロジェクト管理のためのコントロールセンタなど、堅牢なプロジェクトインフラストラクチャを提供する。
論文 参考訳(メタデータ) (2025-03-06T19:41:55Z) - Repo2Run: Automated Building Executable Environment for Code Repository at Scale [8.795746370609855]
大規模なリポジトリに対して実行可能なテスト環境の構築を自動化するためのエージェントであるRepo2Runを紹介します。
Repo2RunはDockerイメージを反復的にビルドし、建物のフィードバックに基づいてユニットテストを実行し、Dockerfileを合成する。
結果のDockerfileを使用して、コードとテストを実行するDockerコンテナ環境を作成することができる。
論文 参考訳(メタデータ) (2025-02-19T12:51:35Z) - WebArena: A Realistic Web Environment for Building Autonomous Agents [92.3291458543633]
我々は、非常に現実的で再現可能な言語誘導エージェントのための環境を構築する。
我々は,Web上でタスクを実行するエージェントに着目し,4つの共通ドメインから完全に機能するWebサイトを持つ環境を構築する。
タスク完了の関数的正しさを評価することに焦点を当てたベンチマークタスクのセットをリリースする。
論文 参考訳(メタデータ) (2023-07-25T22:59:32Z) - Learning Task Automata for Reinforcement Learning using Hidden Markov
Models [37.69303106863453]
本稿では,非マルコフ型タスク仕様を簡潔な有限状態タスクオートマトンとして学習するための新しいパイプラインを提案する。
我々は,その製品 MDP を部分的に観測可能な MDP として扱い,よく知られた Baum-Welch アルゴリズムを用いて隠れマルコフモデルを学習することで,仕様のオートマトンと環境の MDP からなるモデルである製品 MDP を学習する。
我々の学習タスクオートマトンはタスクをその構成サブタスクに分解し、RLエージェントが後に最適なポリシーを合成できる速度を改善する。
論文 参考訳(メタデータ) (2022-08-25T02:58:23Z) - NLPGym -- A toolkit for evaluating RL agents on Natural Language
Processing Tasks [2.5760935151452067]
NLPGymはオープンソースのPythonツールキットで、標準のNLPタスクに対してインタラクティブなテキスト環境を提供する。
研究の基盤となるRLアルゴリズムの異なる6つのタスクについて実験を行った。
論文 参考訳(メタデータ) (2020-11-16T20:58:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。