論文の概要: SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
- arxiv url: http://arxiv.org/abs/2502.18449v1
- Date: Tue, 25 Feb 2025 18:45:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:55.925211
- Title: SWE-RL: Advancing LLM Reasoning via Reinforcement Learning on Open Software Evolution
- Title(参考訳): SWE-RL: オープンソース進化における強化学習によるLLM推論の促進
- Authors: Yuxiang Wei, Olivier Duchenne, Jade Copet, Quentin Carbonneaux, Lingming Zhang, Daniel Fried, Gabriel Synnaeve, Rishabh Singh, Sida I. Wang,
- Abstract要約: 本稿では,実世界のソフトウェア工学において,RLに基づく大規模言語モデル(LLM)を拡張するための最初のアプローチであるSWE-RLを紹介する。
Llama3-SWE-RL-70BはSWE-bench Verifiedの41.0%の解決率を達成した。
驚いたことに、Llama3-SWE-RLはソフトウェア進化データにのみ依存してRLを実行しているにもかかわらず、一般的な推論スキルを持って登場した。
- 参考スコア(独自算出の注目度): 46.5893728376551
- License:
- Abstract: The recent DeepSeek-R1 release has demonstrated the immense potential of reinforcement learning (RL) in enhancing the general reasoning capabilities of large language models (LLMs). While DeepSeek-R1 and other follow-up work primarily focus on applying RL to competitive coding and math problems, this paper introduces SWE-RL, the first approach to scale RL-based LLM reasoning for real-world software engineering. Leveraging a lightweight rule-based reward (e.g., the similarity score between ground-truth and LLM-generated solutions), SWE-RL enables LLMs to autonomously recover a developer's reasoning processes and solutions by learning from extensive open-source software evolution data -- the record of a software's entire lifecycle, including its code snapshots, code changes, and events such as issues and pull requests. Trained on top of Llama 3, our resulting reasoning model, Llama3-SWE-RL-70B, achieves a 41.0% solve rate on SWE-bench Verified -- a human-verified collection of real-world GitHub issues. To our knowledge, this is the best performance reported for medium-sized (<100B) LLMs to date, even comparable to leading proprietary LLMs like GPT-4o. Surprisingly, despite performing RL solely on software evolution data, Llama3-SWE-RL has even emerged with generalized reasoning skills. For example, it shows improved results on five out-of-domain tasks, namely, function coding, library use, code reasoning, mathematics, and general language understanding, whereas a supervised-finetuning baseline even leads to performance degradation on average. Overall, SWE-RL opens up a new direction to improve the reasoning capabilities of LLMs through reinforcement learning on massive software engineering data.
- Abstract(参考訳): 最近のDeepSeek-R1リリースは、大規模言語モデル(LLM)の一般的な推論能力を向上する上で、強化学習(RL)の巨大な可能性を示している。
DeepSeek-R1などの追跡研究は主に、競合するコーディングと数学の問題にRLを適用することに焦点を当てているが、本論文では、実世界のソフトウェア工学にRLをベースとしたLLM推論をスケールする最初のアプローチであるSWE-RLを紹介する。
SWE-RLは、ライトウェイトなルールベースの報酬(例えば、グラウンドトルースとLLM生成ソリューションの類似点)を活用することで、LLMが大規模なオープンソースソフトウェア進化データから学習することで、開発者の推論プロセスとソリューションを自律的に回復することを可能にする -- コードスナップショット、コード変更、問題やプルリクエストといったイベントを含む、ソフトウェアライフサイクル全体の記録である。
Llama 3上でトレーニングされた結果の推論モデルであるLlama3-SWE-RL-70Bは、SWE-bench Verified -- 現実のGitHub問題の人間による検証済みのコレクションである、SWE-bench Verified上で41.0%の解決率を実現しています。
我々の知る限り、これは現在までの中規模の (100B) の LLM で報告されている最高のパフォーマンスであり、GPT-4o のようなプロプライエタリな LLM に匹敵する。
驚いたことに、Llama3-SWE-RLはソフトウェア進化データにのみ依存してRLを実行しているにもかかわらず、一般的な推論スキルを持って登場した。
例えば、関数コーディング、ライブラリの使用、コード推論、数学、一般的な言語理解の5つの領域外タスクの改善結果を示す一方で、教師付きファインタニングベースラインは平均してパフォーマンスの低下につながる。
全体として、SWE-RLは、大規模なソフトウェアエンジニアリングデータに対する強化学習を通じて、LLMの推論能力を改善するための新しい方向を開く。
関連論文リスト
- On the Emergence of Thinking in LLMs I: Searching for the Right Intuition [34.32871896067864]
自己学習による強化学習(RLSP)というポストトレーニングフレームワークを提案する。
RLSPは、推論プロセスの人間または合成的なデモンストレーションによる微調整、多種多様な効率的な推論行動を促進するための探索報酬信号の使用、報酬ハッキングを予防しながら正当性を確保するための結果検証器によるRLトレーニングの3段階を含む。
数学領域における実証的研究は、RLSPが推論を改善することを示している。
論文 参考訳(メタデータ) (2025-02-10T18:52:04Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Teaching Large Language Models to Reason with Reinforcement Learning [38.17625148525193]
人間のフィードバックからの強化学習(textbfRLHF)は、LLM出力と人間の嗜好を整合させる主要なアプローチとして現れている。
RLHFの成功に触発され,フィードバックから学習する複数のアルゴリズムの性能について検討した。
論文 参考訳(メタデータ) (2024-03-07T16:36:29Z) - ArCHer: Training Language Model Agents via Hierarchical Multi-Turn RL [80.10358123795946]
大規模言語モデルを微調整するためのマルチターンRLアルゴリズムを構築するためのフレームワークを開発する。
我々のフレームワークは階層的なRLアプローチを採用し、2つのRLアルゴリズムを並列に実行している。
実験により,ArCHerはエージェントタスクの効率と性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:45:56Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - ARL2: Aligning Retrievers for Black-box Large Language Models via Self-guided Adaptive Relevance Labeling [20.022332182475672]
ARL2は、大規模な言語モデルをラベル付けとして活用するレトリバー学習技術である。
ARL2は適応的な自己学習戦略を用いて、高品質で多様な関連データをキュレートする。
実験はARL2の有効性を示し、NQでは5.4%、MMLUでは4.6%の精度向上を実現した。
論文 参考訳(メタデータ) (2024-02-21T05:41:34Z) - The RL/LLM Taxonomy Tree: Reviewing Synergies Between Reinforcement
Learning and Large Language Models [2.5721733711031978]
強化学習(RL)と大規模言語モデル(LLM)を組み合わせた研究を概観する。
本稿では,2つのモデルタイプが相互に相互作用する方法に基づいた,3つの主要クラスの新しい分類法を提案する。
論文 参考訳(メタデータ) (2024-02-02T20:01:15Z) - LaGR-SEQ: Language-Guided Reinforcement Learning with Sample-Efficient
Querying [71.86163159193327]
大規模言語モデル(LLM)は、最近、テキストを介してコンテキスト対応の応答を提供するという、印象的な能力を実証した。
この能力は、パターン補完に関連するシーケンシャルな意思決定タスクにおいて、妥当なソリューションを予測するために使われる可能性がある。
第一強化学習(RL)エージェントによって部分的に完了したタスクに対する解を提案するために,LLMのこの予測能力を利用するLaGRを紹介した。
論文 参考訳(メタデータ) (2023-08-21T02:07:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。