論文の概要: One Tool Is Enough: Reinforcement Learning for Repository-Level LLM Agents
- arxiv url: http://arxiv.org/abs/2512.20957v2
- Date: Thu, 25 Dec 2025 05:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-29 13:23:29.832529
- Title: One Tool Is Enough: Reinforcement Learning for Repository-Level LLM Agents
- Title(参考訳): 1つのツール:レポジトリレベルLLMエージェントの強化学習
- Authors: Zhaoxi Zhang, Yitong Duan, Yanzhi Zhang, Yiming Xu, Jiyan He, Yunfang Wu,
- Abstract要約: RepoNavigatorは、呼び出されたシンボルの定義に単一の実行対応ツールジャンプを備えるエージェントである。
RepoNavigatorは、事前訓練されたモデルから直接強化学習を通じてエンドツーエンドで訓練され、クローズドソースの蒸留は行われない。
- 参考スコア(独自算出の注目度): 16.281864564259827
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Locating the files and functions requiring modification in large open-source software (OSS) repositories is challenging due to their scale and structural complexity. Existing large language model (LLM)-based methods typically treat this as a repository-level retrieval task and rely on multiple auxiliary tools, which overlook code execution logic and complicate model control. We propose RepoNavigator, an LLM agent equipped with a single execution-aware tool-jumping to the definition of an invoked symbol. This unified design reflects the actual flow of code execution while simplifying tool manipulation. RepoNavigator is trained end-to-end via Reinforcement Learning (RL) directly from a pretrained model, without any closed-source distillation. Experiments demonstrate that RL-trained RepoNavigator achieves state-of-the-art performance, with the 7B model outperforming 14B baselines, the 14B model surpassing 32B competitors, and even the 32B model exceeding closed-source models such as Claude-3.7. These results confirm that integrating a single, structurally grounded tool with RL training provides an efficient and scalable solution for repository-level issue localization.
- Abstract(参考訳): 大規模なオープンソースソフトウェア(OSS)リポジトリの変更を必要とするファイルや関数の配置は、その規模と構造的な複雑さのため、難しい。
既存の大規模言語モデル(LLM)ベースのメソッドは、これをリポジトリレベルの検索タスクとして扱い、コード実行ロジックを見落とし、モデル制御を複雑にする複数の補助ツールに依存している。
本稿では、呼び出しシンボルの定義に対して単一の実行対応ツールジャンプ機能を備えたLLMエージェントであるRepoNavigatorを提案する。
この統一された設計は、ツール操作を簡素化しながらコード実行の実際の流れを反映している。
RepoNavigatorは、事前訓練されたモデルから直接強化学習(Reinforcement Learning, RL)を介して、クローズドソース蒸留なしでエンドツーエンドで訓練される。
RLトレーニングされたRepoNavigatorは、14Bベースラインを上回る7Bモデル、32Bコンペティターを超える14Bモデル、クロード-3.7のようなクローズドソースモデルを超える32Bモデルなど、最先端のパフォーマンスを達成した。
これらの結果は、単一の構造的基盤を持つツールとRLトレーニングを統合することで、リポジトリレベルのイシューローカライズのための効率的でスケーラブルなソリューションが提供されることを確認した。
関連論文リスト
- Tool Zero: Training Tool-Augmented LLMs via Pure RL from Scratch [63.40752011615843]
ツール強化言語モデルのトレーニングは、複雑なタスクの能力を高めるための有望なアプローチとして登場した。
規則に基づく強化学習のための動的一般化誘導型報酬設計を提案する。
本研究では,SFTモデルとRL-with-SFTモデルと比較して7%以上の性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-02T16:33:45Z) - VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use [78.29315418819074]
VerlToolは、体系的な設計原則を通じて制限に対処する統一的でモジュール化されたフレームワークです。
我々のフレームワークはARLTをマルチターントラジェクトリとして定式化し、マルチモード観測トークン(テキスト/画像/ビデオ)を単一ターンRLVRパラダイムを超えて拡張する。
モジュール化されたプラグインアーキテクチャは、軽量Python定義のみを必要とする迅速なツール統合を可能にする。
論文 参考訳(メタデータ) (2025-09-01T01:45:18Z) - RLFactory: A Plug-and-Play Reinforcement Learning Post-Training Framework for LLM Multi-Turn Tool-Use [50.52940111891476]
大きな言語モデルは基本的な推論では優れているが、外部ツールとのインタラクションを必要とするタスクには苦労する。
マルチラウンドツール用プラグイン・アンド・プレイ強化学習フレームワークであるRLFactoryを提案する。
論文 参考訳(メタデータ) (2025-08-31T16:47:31Z) - On the Impacts of Contexts on Repository-Level Code Generation [5.641402231731082]
本稿ではレポジトリレベルのコード生成を評価するために設計された新しいベンチマークであるRepoExecを紹介する。
実行可能性、包括的なテストケース生成による機能的正当性、ファイル間のコンテキストの正確な利用という3つの重要な側面に注目します。
論文 参考訳(メタデータ) (2024-06-17T10:45:22Z) - Integrating Distributed Architectures in Highly Modular RL Libraries [4.297070083645049]
ほとんどの人気のある強化学習ライブラリは、高度にモジュール化されたエージェントの構成性を主張している。
本稿では、RLエージェントを独立した再利用可能なコンポーネントによって異なるスケールで定義できる汎用的アプローチを提案する。
論文 参考訳(メタデータ) (2020-07-06T10:22:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。