論文の概要: Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02686v1
- Date: Mon, 05 May 2025 14:33:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.707649
- Title: Sailing AI by the Stars: A Survey of Learning from Rewards in Post-Training and Test-Time Scaling of Large Language Models
- Title(参考訳): スターによるAIのサイリング:大規模言語モデルの訓練後およびテスト時間スケーリングにおけるリワードからの学習に関する調査
- Authors: Xiaobao Wu,
- Abstract要約: 大規模言語モデル(LLM)の最近の発展は、事前学習のスケーリングから後学習のスケーリングへと移行している。
これらの開発全体において、重要な統一パラダイムが生まれている。
報奨からの学習のパラダイムを概観する。
- 参考スコア(独自算出の注目度): 7.8244193839996194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (in RLHF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities. In this survey, we present a comprehensive overview of the paradigm of learning from rewards. We categorize and analyze the strategies under this paradigm across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の発展は、事前トレーニングのスケーリングから、ポストトレーニングとテストタイムのスケーリングに移行している。
これらの発展の中で、重要な統一パラダイムが生まれている: 報酬信号がLLMの振る舞いを制御するための誘導星として働くリワードからの学習。
強化学習(RLHF、DPO、GRPO)、報酬誘導復号化、ポストホック補正など、広く普及している技術の基礎となっている。
このパラダイムは、静的データから動的フィードバックからの能動的学習への移行を可能にする。
これにより、LLMに調整された好みと深い推論能力が提供される。
本稿では,報奨からの学習のパラダイムについて概観する。
このパラダイムの下での戦略を、トレーニング、推論、そして推論後の段階にわたって分類し分析します。
さらに、報酬モデルと主要な応用のベンチマークについて論じる。
最後に、課題と今後の方向性を強調します。
我々は、https://github.com/bobxwu/learning-from-rewards-llm-papers.comで論文コレクションを管理しています。
関連論文リスト
- LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。
ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文 参考訳(メタデータ) (2025-02-28T18:59:54Z) - From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - DRUM: Learning Demonstration Retriever for Large MUlti-modal Models [10.884258583493175]
大規模マンダーリヌル型アンダーラインモデル(DRUM)のための新しい枠組みであるアンダーラインエミュレーションアンダーラインレトリバーを提案する。
まず、埋め込みモデルが与えられると仮定して、視覚言語タスクの検索戦略について議論し、画像とテキストの埋め込みを結合して検索性能を向上させることを提案する。
第2に、LVLMのフィードバックを介して、埋め込みモデルにより検索されたデモを再度ランク付けし、トレーニングのためのリストワイドランキングの損失を計算することを提案する。
論文 参考訳(メタデータ) (2024-12-10T15:56:12Z) - The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。
特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。
コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文 参考訳(メタデータ) (2024-04-01T16:00:01Z) - RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。
エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。
我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-02-06T04:06:06Z) - Large Language Models Are Latent Variable Models: Explaining and Finding
Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。
本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文 参考訳(メタデータ) (2023-01-27T18:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。