Fugu-MT 論文翻訳(概要): Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards

論文の概要: Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards

arxiv url: http://arxiv.org/abs/2505.02686v2
Date: Thu, 12 Jun 2025 16:39:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-13 15:37:22.256866
Title: Sailing by the Stars: A Survey on Reward Models and Learning Strategies for Learning from Rewards
Title（参考訳）: スターズ・バイ・ザ・セイリング:リワードモデルとリワード学習方略に関する調査
Authors: Xiaobao Wu,
Abstract要約: 大規模言語モデル(LLM)の最近の発展は、事前学習のスケーリングから後学習のスケーリングへと移行している。これらの開発全体において、重要な統一パラダイムが生まれている。我々は、報酬モデルと学習戦略の観点から、トレーニング、推論、後推論の段階にわたって、報酬からの学習を包括的に概観する。
参考スコア（独自算出の注目度）: 7.8244193839996194
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in Large Language Models (LLMs) have shifted from pre-training scaling to post-training and test-time scaling. Across these developments, a key unified paradigm has arisen: Learning from Rewards, where reward signals act as the guiding stars to steer LLM behavior. It has underpinned a wide range of prevalent techniques, such as reinforcement learning (RLHF, RLAIF, DPO, and GRPO), reward-guided decoding, and post-hoc correction. Crucially, this paradigm enables the transition from passive learning from static data to active learning from dynamic feedback. This endows LLMs with aligned preferences and deep reasoning capabilities for diverse tasks. In this survey, we present a comprehensive overview of learning from rewards, from the perspective of reward models and learning strategies across training, inference, and post-inference stages. We further discuss the benchmarks for reward models and the primary applications. Finally we highlight the challenges and future directions. We maintain a paper collection at https://github.com/bobxwu/learning-from-rewards-llm-papers.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の発展は、事前トレーニングのスケーリングから、ポストトレーニングとテストタイムのスケーリングに移行している。これらの発展の中で、重要な統一パラダイムが生まれている: 報酬信号がLLMの振る舞いを制御するための誘導星として働くリワードからの学習。強化学習(RLHF, RLAIF, DPO, GRPO)、報酬誘導復号化、ポストホック補正など、広く普及している技術である。このパラダイムは、静的データから動的フィードバックからの能動的学習への移行を可能にする。これにより、LLMには、様々なタスクに対する調整された好みと深い推論能力が与えられます。本稿では、報酬モデルと学習戦略の観点から、トレーニング、推論、後推論の各段階における報酬モデルと学習戦略の観点から、報奨からの学習の包括的概要を述べる。さらに、報酬モデルと主要な応用のベンチマークについて論じる。最後に、課題と今後の方向性を強調します。我々は、https://github.com/bobxwu/learning-from-rewards-llm-papers.comで論文コレクションを管理しています。

関連論文リスト

GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文参考訳（メタデータ） (2025-06-02T17:28:26Z)
LLM Post-Training: A Deep Dive into Reasoning Large Language Models [131.10969986056]
大規模言語モデル (LLMs) は自然言語処理の状況を変え、多様な応用をもたらした。ポストトレーニング手法により、LLMは知識を洗練させ、推論を改善し、事実の正確性を高め、ユーザの意図や倫理的配慮をより効果的に整合させることができる。
論文参考訳（メタデータ） (2025-02-28T18:59:54Z)
From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文参考訳（メタデータ） (2025-02-17T12:58:17Z)
DRUM: Learning Demonstration Retriever for Large MUlti-modal Models [10.884258583493175]
大規模マンダーリヌル型アンダーラインモデル(DRUM)のための新しい枠組みであるアンダーラインエミュレーションアンダーラインレトリバーを提案する。まず、埋め込みモデルが与えられると仮定して、視覚言語タスクの検索戦略について議論し、画像とテキストの埋め込みを結合して検索性能を向上させることを提案する。第2に、LVLMのフィードバックを介して、埋め込みモデルにより検索されたデモを再度ランク付けし、トレーニングのためのリストワイドランキングの損失を計算することを提案する。
論文参考訳（メタデータ） (2024-12-10T15:56:12Z)
The Fine Line: Navigating Large Language Model Pretraining with Down-streaming Capability Analysis [27.310894780313618]
本稿では,様々な事前学習中間点におけるモデル能力の総合的な比較を行う。特定のダウンストリームメトリクスが、異なるサイズのモデルにまたがる同様のトレーニングダイナミクスを示すことを確認します。コアの発見に加えて、AmberとOpenLLaMAを再現し、中間チェックポイントをリリースしました。
論文参考訳（メタデータ） (2024-04-01T16:00:01Z)
RL-VLM-F: Reinforcement Learning from Vision Language Foundation Model Feedback [24.759613248409167]
リワードエンジニアリングは、強化学習研究における長年の課題である。エージェントが新しいタスクを学習するための報酬関数を自動生成するRL-VLM-Fを提案する。我々は、RL-VLM-Fが、様々な領域にまたがる効果的な報酬とポリシーを効果的に生成できることを実証した。
論文参考訳（メタデータ） (2024-02-06T04:06:06Z)
Continual Learning for Large Language Models: A Survey [95.79977915131145]
大規模言語モデル(LLM)は、大規模なトレーニングコストが高いため、頻繁な再トレーニングには適さない。本稿では,LLMの連続学習に関する最近の研究について述べる。
論文参考訳（メタデータ） (2024-02-02T12:34:09Z)
Dense Reward for Free in Reinforcement Learning from Human Feedback [64.92448888346125]
我々は報酬モデルが単にスカラー出力よりも多くの情報を含んでいるという事実を活用している。私たちは、これらの注意重みを使って、完了全体に沿って報酬を再分配します。経験的に、トレーニングを安定化し、学習速度を加速し、実際は、より良い局所最適性をもたらす可能性があることを示す。
論文参考訳（メタデータ） (2024-02-01T17:10:35Z)
RePo: Resilient Model-Based Reinforcement Learning by Regularizing Posterior Predictability [25.943330238941602]
本稿では,視覚モデルに基づくRL法を提案する。我々の訓練目的は、表現が力学と報酬を最大限に予測することを奨励する。我々の取り組みは、モデルベースのRLを動的で多様なドメインのための実用的で有用なツールにするためのステップです。
論文参考訳（メタデータ） (2023-08-31T18:43:04Z)
Large Language Models Are Latent Variable Models: Explaining and Finding Good Demonstrations for In-Context Learning [104.58874584354787]
近年,事前学習型大規模言語モデル (LLM) は,インコンテキスト学習(in-context learning)として知られる推論時少数ショット学習能力を実現する上で,顕著な効率性を示している。本研究では,現実のLLMを潜在変数モデルとみなし,ベイズレンズによる文脈内学習現象を考察することを目的とする。
論文参考訳（メタデータ） (2023-01-27T18:59:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。