論文の概要: On Training in Imagination
- arxiv url: http://arxiv.org/abs/2605.06732v2
- Date: Mon, 11 May 2026 21:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-13 18:21:06.810744
- Title: On Training in Imagination
- Title(参考訳): イマジネーションのトレーニングについて
- Authors: Nadav Timor, Ravid Shwartz-Ziv, Micah Goldblum, Yann LeCun, David Harel,
- Abstract要約: 最先端のモデルに基づく強化学習手法は、想像上のロールアウトに関するポリシーを訓練する。
学習力学と報酬モデルにおける誤差が回帰や政策最適化に与える影響について検討する。
- 参考スコア(独自算出の注目度): 69.97419830683606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art model-based reinforcement learning methods train policies on imagined rollouts. These rollouts are trajectories generated by a learned dynamics model and are scored by a learned reward model, but without querying the true environment during policy updates. We study this training paradigm by quantifying how errors in learned dynamics and reward models affect returns and policy optimization. First, we extend the analysis of Asadi et al. (2018) to MDPs with learned reward models, and derive the optimal sample allocation--the ratio of dynamics samples to reward samples that minimizes a bound on return error under power-law scaling assumptions. We identify lower Lipschitz constants of the learned dynamics, reward, and policy as a representation desideratum that tightens this bound, and we connect this perspective to the temporal-straightening objective of Wang et al. (2026). Second, we examine how policy optimization with REINFORCE tolerates noisy rewards, which are often cheaper to obtain. We show that zero-mean reward noise leaves the gradient estimator unbiased and adds at most a variance term that decreases with the number of rollouts. This introduces a practical tradeoff: given a fixed budget, should one buy more rollouts with cheaper but noisier rewards, or fewer rollouts with more expensive but less noisy rewards? We reduce this choice to a one-dimensional optimization problem and characterize the optimum.
- Abstract(参考訳): 最先端のモデルに基づく強化学習手法は、想像上のロールアウトに関するポリシーを訓練する。
これらのロールアウトは、学習された動的モデルによって生成されたトラジェクトリであり、学習された報酬モデルによってスコアされるが、ポリシー更新中に真の環境を問い合わせることはない。
本研究では,学習力学および報酬モデルにおける誤差が回帰や政策最適化に与える影響を定量化することにより,この訓練パラダイムについて検討する。
まず、Asadi et al (2018) を学習報酬モデルで MDP に拡張し、最適サンプル割り当てを導出する。
我々は、学習力学、報酬、政策の下位リプシッツ定数を、この境界を締め付ける表象の表象として特定し、この視点を、Wang et al (2026)の時間的ストレート化の目的に結びつける。
第2に、REINFORCEによる政策最適化が、しばしば入手しやすいノイズ報酬を許容する方法について検討する。
ゼロ平均報酬雑音は勾配推定器の偏りをなくし、ロールアウト数で減少する分散項を少なくとも加えることを示す。
固定的な予算が与えられたら、より安くてノイズの多い報酬でより多くのロールアウトを購入するか、より高価だがノイズの多い報酬でより少ないロールアウトを買うべきか?
この選択を1次元の最適化問題に還元し、最適性を特徴付ける。
関連論文リスト
- MARBLE: Multi-Aspect Reward Balance for Diffusion RL [71.6241143519038]
強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:20:42Z) - Real-Time Aligned Reward Model beyond Semantics [49.717236911878224]
本稿では,R2M(Real-Time Aligned Reward Model)という軽量なRLHFフレームワークを紹介する。
R2Mは、事前訓練されたLLMの意味表現のみに依存するバニラ報酬モデルを越えている。
この研究は、ポリシーモデルからのフィードバックをリアルタイムで活用することで、報酬モデルの性能を向上させるための有望な新しい方向性を示している。
論文 参考訳(メタデータ) (2026-01-30T07:32:35Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - Probabilistic Uncertain Reward Model [27.40414952747553]
本稿では、優先データから生じる報酬分布を学習するための確率的不確実リワードモデル(PURM)を提案する。
PURMは従来の手法よりも精度が高く,不確実性も高いことを示す。
論文 参考訳(メタデータ) (2025-03-28T14:39:52Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
Direct Preference Optimization (DPO) は、プライオリティデータに基づいてポリシーを直接訓練する一般的なオフラインアライメント手法である。
我々はこの現象を分析し、蒸留を用いて生成対よりも真の嗜好分布のより良いプロキシを得る。
以上の結果から,このような報酬モデルからの蒸留は,優先アノテーションの分布変化に対するロバスト性の向上につながることが示唆された。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Scaling Laws for Reward Model Overoptimization [19.93331579503503]
我々は,ゴールド報酬モデルが,強化学習とベスト・オブ・n$サンプリングのどちらを用いて,プロキシ報酬モデルに対して最適化する際にどのようにスコアが変化するかを検討する。
また、報酬モデルデータセットのサイズ、報酬モデルと政策パラメータの数、および強化学習における報酬に付加されるKLペナルティの係数との関係について検討した。
論文 参考訳(メタデータ) (2022-10-19T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。