論文の概要: Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards
- arxiv url: http://arxiv.org/abs/2505.02686v2
- Date: Thu, 12 Jun 2025 16:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.256866
- Title: Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards
- Title(参考訳): スターズ・バイ・ザ・セイリング:リワードモデルとリワード学習方略に関する調査
- Authors: Xiaobao Wu,
- Abstract要約: 大規模言語モデル(LLM)の最近の発展は、事前学習のスケーリングから後学習のスケーリングへと移行している。
これらの開発全体において、重要な統一パラダイムが生まれている。
我々は、報酬モデルと学習戦略の観点から、トレーニング、推論、後推論の段階にわたって、報酬からの学習を包括的に概観する。
- 参考スコア(独自算出の注目度): 7.8244193839996194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (RLHF, RLAIF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities for diverse tasks. In this survey, we present a comprehensive overview of learning from rewards, from the perspective of reward models and learning strategies across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の発展は、事前トレーニングのスケーリングから、ポストトレーニングとテストタイムのスケーリングに移行している。
これらの発展の中で、重要な統一パラダイムが生まれている: 報酬信号がLLMの振る舞いを制御するための誘導星として働くリワードからの学習。
強化学習(RLHF, RLAIF, DPO, GRPO)、報酬誘導復号化、ポストホック補正など、広く普及している技術である。
このパラダイムは、静的データから動的フィードバックからの能動的学習への移行を可能にする。
これにより、LLMには、様々なタスクに対する調整された好みと深い推論能力が与えられます。
本稿では、報酬モデルと学習戦略の観点から、トレーニング、推論、後推論の各段階における報酬モデルと学習戦略の観点から、報奨からの学習の包括的概要を述べる。
さらに、報酬モデルと主要な応用のベンチマークについて論じる。
最後に、課題と今後の方向性を強調します。
我々は、https://github.com/bobxwu/learning-from-rewards-llm-papers.comで論文コレクションを管理しています。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - DRUM: Learning Demonstration Retriever for Large MUlti-modal Models [10.884258583493175]
大規模マンダーリヌル型アンダーラインモデル(DRUM)のための新しい枠組みであるアンダーラインエミュレーションアンダーラインレトリバーを提案する。
まず、埋め込みモデルが与えられると仮定して、視覚言語タスクの検索戦略について議論し、画像とテキストの埋め込みを結合して検索性能を向上させることを提案する。
第2に、LVLMのフィードバックを介して、埋め込みモデルにより検索されたデモを再度ランク付けし、トレーニングのためのリストワイドランキングの損失を計算することを提案する。
論文 参考訳(メタデータ) (2024-12-10T15:56:12Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。