論文の概要: Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle
- arxiv url: http://arxiv.org/abs/2509.16679v1
- Date: Sat, 20 Sep 2025 13:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.922085
- Title: Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle
- Title(参考訳): 強化学習と大規模言語モデル: LLMライフサイクル全体の進展と応用に関する調査
- Authors: Keliang Liu, Dingkang Yang, Ziyun Qian, Weijie Yin, Yuchi Wang, Hongsheng Li, Jun Liu, Peng Zhai, Yang Liu, Lihua Zhang,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
- 参考スコア(独自算出の注目度): 66.80133103857703
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, training methods centered on Reinforcement Learning (RL) have markedly enhanced the reasoning and alignment performance of Large Language Models (LLMs), particularly in understanding human intents, following user instructions, and bolstering inferential strength. Although existing surveys offer overviews of RL augmented LLMs, their scope is often limited, failing to provide a comprehensive summary of how RL operates across the full lifecycle of LLMs. We systematically review the theoretical and practical advancements whereby RL empowers LLMs, especially Reinforcement Learning with Verifiable Rewards (RLVR). First, we briefly introduce the basic theory of RL. Second, we thoroughly detail application strategies for RL across various phases of the LLM lifecycle, including pre-training, alignment fine-tuning, and reinforced reasoning. In particular, we emphasize that RL methods in the reinforced reasoning phase serve as a pivotal driving force for advancing model reasoning to its limits. Next, we collate existing datasets and evaluation benchmarks currently used for RL fine-tuning, spanning human-annotated datasets, AI-assisted preference data, and program-verification-style corpora. Subsequently, we review the mainstream open-source tools and training frameworks available, providing clear practical references for subsequent research. Finally, we analyse the future challenges and trends in the field of RL-enhanced LLMs. This survey aims to present researchers and practitioners with the latest developments and frontier trends at the intersection of RL and LLMs, with the goal of fostering the evolution of LLMs that are more intelligent, generalizable, and secure.
- Abstract(参考訳): 近年,Reinforcement Learning(RL)を中心とした学習手法は,大規模言語モデル(LLM)の推論・アライメント性能を著しく向上させ,特に人間の意図の理解,ユーザ指示の追従,推論強度の向上に寄与している。
既存の調査では、RL拡張LLMの概要が提供されているが、そのスコープは限られており、LLMのライフサイクル全体にわたってRLがどのように動作するかの包括的な要約を提供していない。
RLがLLM、特にReinforcement Learning with Verifiable Rewards(RLVR)に力を与える理論的・実践的な進歩を体系的にレビューする。
まず、RLの基本理論を簡潔に紹介する。
第2に、LLMライフサイクルの様々なフェーズにおけるRLの適用戦略について、事前学習、アライメント微調整、強化推論など、詳細に詳述する。
特に、強化推論フェーズにおけるRL法は、モデル推論をその限界まで進めるための重要な駆動力となることを強調する。
次に、RLファインチューニングに現在使用されている既存のデータセットと評価ベンチマーク、人間のアノテーション付きデータセット、AI支援された嗜好データ、プログラム検証スタイルのコーパスを照合する。
その後、利用可能な主要なオープンソースツールとトレーニングフレームワークをレビューし、その後の研究に明確な実践的リファレンスを提供します。
最後に、RL強化LLMの分野における今後の課題と動向について分析する。
本調査は, よりインテリジェントで汎用的でセキュアなLSMの進化を促進することを目的として, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的とする。
関連論文リスト
- A Survey of Reinforcement Learning for Large Reasoning Models [98.58081012669369]
大規模言語モデルによる推論のための強化学習の最近の進歩について
LRMのためのRLのさらなるスケーリングは、計算資源だけでなく、アルゴリズム設計、トレーニングデータ、インフラにおいても課題に直面している。
論文 参考訳(メタデータ) (2025-09-10T17:59:43Z) - From Trial-and-Error to Improvement: A Systematic Analysis of LLM Exploration Mechanisms in RLVR [92.51110344832178]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるための強力なパラダイムとして登場した。
本技術報告では,RLVRにおける探査能力の体系的調査について述べる。
論文 参考訳(メタデータ) (2025-08-11T01:26:16Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
我々はRL強化大言語モデル(LLM)に関する最新の知識の体系的なレビューを行う。
具体的には、RLの基礎を詳述し、(2)人気のRL強化LLMを導入し、(3)広く使われている報酬モデルに基づくRL技術であるReinforcement Learning from Human Feedback(RLHF)とReinforcement Learning from AI Feedback(RLAIF)についてレビューする。
論文 参考訳(メタデータ) (2024-12-05T16:10:42Z) - Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods [18.771658054884693]
大規模言語モデル(LLM)は、マルチタスク学習、サンプル効率、高レベルのタスク計画といった側面において強化学習(RL)を強化するための有望な道として出現する。
本稿では,情報処理装置,報酬設計装置,意思決定装置,ジェネレータの4つの役割を含む,RLにおけるLLMの機能を体系的に分類する構造的分類法を提案する。
論文 参考訳(メタデータ) (2024-03-30T08:28:08Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z) - Reinforcement Learning from LLM Feedback to Counteract Goal
Misgeneralization [0.0]
強化学習(RL)における目標誤一般化に対処する手法を提案する。
目標の誤一般化は、エージェントがその能力のアウト・オブ・ディストリビューションを維持しながら、意図したものよりもプロキシを追求する場合に発生する。
本研究では,大規模言語モデルを用いてRLエージェントを効率的に監視する方法を示す。
論文 参考訳(メタデータ) (2024-01-14T01:09:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。