論文の概要: A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions
- arxiv url: http://arxiv.org/abs/2604.17312v1
- Date: Sun, 19 Apr 2026 08:01:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.45743
- Title: A Survey of Reinforcement Learning for Large Language Models under Data Scarcity: Challenges and Solutions
- Title(参考訳): データスカシティによる大規模言語モデルの強化学習に関する調査:課題と解決策
- Authors: Zhiyin Yu, Yuchen Mou, Juncheng Yan, Junyu Luo, Chunchun Chen, Xing Wei, Yunhui Liu, Hongru Sun, Yuxing Zhang, Jun Xu, Yatao Bian, Ming Zhang, Wei Ye, Tieke He, Jie Yang, Guanjie Zheng, Zhonghai Wu, Bo Zhang, Lei Bai, Xiao Luo,
- Abstract要約: 強化学習(RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニングパラダイムとして登場した。
RLは、高品質な外部監視の可用性の制限や、モデル生成エクスペリエンスの制限されたボリュームなど、データ不足の大きな課題に直面している。
データ中心の視点、トレーニング中心の視点、フレームワーク中心の視点という3つの相補的な視点に基づいて構築されたボトムアップ階層的なフレームワークを提案する。
- 参考スコア(独自算出の注目度): 60.897488753340674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has emerged as a powerful post-training paradigm for enhancing the reasoning capabilities of large language models (LLMs). However, reinforcement learning for LLMs faces substantial data scarcity challenges, including the limited availability of high-quality external supervision and the constrained volume of model-generated experience. These limitations make data-efficient reinforcement learning a critical research direction. In this survey, we present the first systematic review of reinforcement learning for LLMs under data scarcity. We propose a bottom-up hierarchical framework built around three complementary perspectives: the data-centric perspective, the training-centric perspective, and the framework-centric perspective. We develop a taxonomy of existing methods, summarize representative approaches in each category, and analyze their strengths and limitations. Our taxonomy aims to provide a clear conceptual foundation for understanding the design space of data-efficient RL for LLMs and to guide researchers working in this emerging area. We hope this survey offers a comprehensive roadmap for future research and inspires new directions toward more efficient and scalable reinforcement learning post-training for LLMs.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)の推論能力を高めるための強力なポストトレーニングパラダイムとして登場した。
しかし、LLMの強化学習は、高品質な外部監視の可用性の制限や、モデル生成経験の制限など、データ不足の重大な課題に直面している。
これらの制限により、データ効率の強化学習が重要な研究方向となる。
本研究では,データ不足下でのLLMの強化学習について,初めて体系的に検討する。
データ中心の視点、トレーニング中心の視点、フレームワーク中心の視点という3つの相補的な視点に基づいて構築されたボトムアップ階層的なフレームワークを提案する。
我々は,既存の手法の分類法を開発し,各カテゴリの代表的アプローチを要約し,その強みと限界を分析する。
我々の分類学は、LLMにおけるデータ効率のよいRLの設計空間を理解するための明確な概念基盤を提供することと、この新興分野で働く研究者を指導することを目的としている。
この調査は今後の研究の総合的なロードマップを提供し、LLMのより効率的でスケーラブルな強化学習に向けた新たな方向性を促すことを願っている。
関連論文リスト
- Reinforcement Learning Meets Large Language Models: A Survey of Advancements and Applications Across the LLM Lifecycle [66.80133103857703]
強化学習(RL)は、大規模言語モデル(LLM)の推論とアライメント性能を著しく向上させた。
本調査は, RL と LLM の交差点における最新の発展とフロンティアの動向を研究者や実践者に提示することを目的としている。
論文 参考訳(メタデータ) (2025-09-20T13:11:28Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - Reinforcement Learning Enhanced LLMs: A Survey [45.57586245741664]
我々はRL強化大言語モデル(LLM)に関する最新の知識の体系的なレビューを行う。
具体的には、RLの基礎を詳述し、(2)人気のRL強化LLMを導入し、(3)広く使われている報酬モデルに基づくRL技術であるReinforcement Learning from Human Feedback(RLHF)とReinforcement Learning from AI Feedback(RLAIF)についてレビューする。
論文 参考訳(メタデータ) (2024-12-05T16:10:42Z) - A Survey on Efficient Inference for Large Language Models [25.572035747669275]
大きな言語モデル(LLM)は、様々なタスクにまたがる顕著なパフォーマンスのために、広く注目を集めている。
LLM推論のかなりの計算とメモリ要件は、リソース制約のあるシナリオへの展開に困難をもたらす。
本稿では,LLMの効率的な推論について,既存の文献を包括的に調査する。
論文 参考訳(メタデータ) (2024-04-22T15:53:08Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。