論文の概要: Tool-integrated Reinforcement Learning for Repo Deep Search
- arxiv url: http://arxiv.org/abs/2508.03012v1
- Date: Tue, 05 Aug 2025 02:44:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.746838
- Title: Tool-integrated Reinforcement Learning for Repo Deep Search
- Title(参考訳): Repo Deep Searchのためのツール統合強化学習
- Authors: Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie,
- Abstract要約: 本稿では,2段階のツール統合学習フレームワークであるToolTrainについて紹介する。
実験の結果,ToolTrainでトレーニングしたモデルでは最先端の性能が得られ,32Bモデルは関数レベルのローカライゼーションにおいてClaude-3.7を超えていることがわかった。
- 参考スコア(独自算出の注目度): 2.5556672917309653
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Issue localization, the process of identifying code locations that need modification to resolve software issues, is a critical yet challenging task in software development. The semantic gap between natural language issue descriptions and faulty code requires complex multi-hop reasoning through code dependencies. Existing LLM-based agents attempt to address this by integrating repository retrieval tools. However, this transforms issue localization into a demanding task we call Repo Deep Search, which requires the LLM to effectively utilize various repository retrieval tools throughout a multi-step reasoning and navigation process. To tackle this challenge, we present ToolTrain, a two-stage tool-integrated training framework combining rejection-sampled supervised fine-tuning and tool-integrated reinforcement learning to enhance LLMs' ability to use retrieval tools for issue localization. Experimental results show that ToolTrain-trained models achieve state-of-the-art performance, with our 32B model even surpassing Claude-3.7 on function-level localization. The results also show that improved localization performance translates to better end-to-end issue resolution performance. This further demonstrates that training for issue localization is a viable and effective strategy for improving automated software development.
- Abstract(参考訳): 問題ローカライゼーション(問題ローカライゼーション) — ソフトウェア問題を解決するために修正が必要なコード位置を特定するプロセス。
自然言語の課題記述と欠陥コードとのセマンティックなギャップは、コードの依存関係を通じて複雑なマルチホップ推論を必要とする。
既存のLLMベースのエージェントは、リポジトリ検索ツールを統合することで、この問題に対処しようとしている。
しかし、これはローカライゼーションをRepo Deep Searchと呼ぶ要求のあるタスクに変換するため、LLMは多段階の推論とナビゲーションプロセスを通じて、様々なリポジトリ検索ツールを効果的に活用する必要がある。
この課題に対処するため,2段階のツール統合トレーニングフレームワークであるToolTrainを提案する。
実験の結果,ToolTrainでトレーニングしたモデルでは最先端の性能が得られ,32Bモデルは関数レベルのローカライゼーションにおいてClaude-3.7を超えていることがわかった。
また, ローカライゼーション性能の改善により, エンド・ツー・エンドの課題解決性能が向上することを示した。
このことは、イシューローカライゼーションのトレーニングが、自動ソフトウェア開発を改善するための実用的で効果的な戦略であることを証明している。
関連論文リスト
- Tool-Star: Empowering LLM-Brained Multi-Tool Reasoner via Reinforcement Learning [63.31585771716123]
大言語モデル(LLM)は、大規模強化学習(RL)を通じて顕著な推論能力を示した。
ステップワイズ推論中に複数の外部ツールを自律的に呼び出すLLベースのフレームワークであるTool-Starを紹介する。
Tool-Starは6種類のツールを統合し、データ合成とトレーニングの両方に体系的な設計を取り入れている。
論文 参考訳(メタデータ) (2025-05-22T09:00:19Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Repository Structure-Aware Training Makes SLMs Better Issue Resolver [20.095559504482885]
ReSAT(Repository Structure-Aware Training)を導入し,レポジトリ構造と課題解決能力の理解を深める。
本研究では,(1)ローカライゼーション学習データ,(2)コード理解とローカライゼーション能力を改善する多段階プログレッシブなローカライゼーションデータ,(2)コンテキストベースのコード編集機能を改善するコード編集トレーニングデータという2種類のトレーニングデータを構築した。
論文 参考訳(メタデータ) (2024-12-26T03:01:32Z) - Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。
実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。
以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文 参考訳(メタデータ) (2024-06-19T00:28:58Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。
ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。
3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-05T15:08:16Z) - CRAFT: Customizing LLMs by Creating and Retrieving from Specialized
Toolsets [75.64181719386497]
大規模言語モデル(LLM)のためのツール作成・検索フレームワークであるCRAFTを提案する。
タスク用に特別にキュレートされたツールセットを作成し、複雑なタスクを解決する能力を高めるためにこれらのセットからツールを取得するコンポーネントをLLMに装備する。
本手法はフレキシブルに設計されており,既製のLCMを細かな調整なしに未確認領域やモダリティに適応するためのプラグアンドプレイ方式を提供する。
論文 参考訳(メタデータ) (2023-09-29T17:40:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。