論文の概要: Relative Trajectory Balance is equivalent to Trust-PCL
- arxiv url: http://arxiv.org/abs/2509.01632v1
- Date: Mon, 01 Sep 2025 17:17:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.797348
- Title: Relative Trajectory Balance is equivalent to Trust-PCL
- Title(参考訳): 相対軌道バランスはTrust-PCLと等価である
- Authors: Tristan Deleu, Padideh Nouri, Yoshua Bengio, Doina Precup,
- Abstract要約: Relative Trajectory Balance (RTB) は、逐次生成モデルの微調整を改善することを目的としている。
本稿は,KL正則化を用いた非政治RL法であるRTBとTrust-PCLの等価性を確立する。
- 参考スコア(独自算出の注目度): 72.58731629381032
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in generative modeling has highlighted the importance of Reinforcement Learning (RL) for fine-tuning, with KL-regularized methods in particular proving to be highly effective for both autoregressive and diffusion models. Complementing this line of work, the Relative Trajectory Balance (RTB) objective was recently introduced in the context of Generative Flow Networks (GFlowNets) to serve the same role of improving fine-tuning in sequential generative models. Building on prior work linking GFlowNets and maximum-entropy RL, we establish in this paper an equivalence between RTB and Trust-PCL, an off-policy RL method with KL regularization. This equivalence situates RTB within the broader theoretical landscape of KL-regularized RL, and clarifies its relationship to earlier methods. Leveraging this insight, we revisit an illustrative example from the RTB paper and show that KL-regularized RL methods achieve comparable performance, offering an alternative perspective to what was previously reported.
- Abstract(参考訳): 近年, 自己回帰モデルと拡散モデルの両方に極めて有効であることを示すKL正規化手法により, 微調整における強化学習(RL)の重要性が注目されている。
この行を補完するRelative Trajectory Balance(RTB)の目的は、最近、ジェネレーティブフローネットワーク(GFlowNets)の文脈で導入され、シーケンシャルな生成モデルにおける微調整を改善するのと同じ役割を果たす。
本稿では, GFlowNetsと最大エントロピーRLを結合する先行作業に基づいて, KL正則化法であるRTBとTrust-PCLの等価性を確立する。
この同値性は、KL-正則化 RL のより広い理論的景観にRTBを配置し、それ以前の方法との関係を明らかにする。
この知見を生かして、RTB論文から図解的な例を再検討し、KL規則化されたRL手法が、以前報告されたものと同等のパフォーマンスを実現し、代替的な視点を提供することを示す。
関連論文リスト
- Inference-Time Alignment Control for Diffusion Models with Reinforcement Learning Guidance [46.06527859746679]
本稿では,Dejin-Free Guidance(CFG)に適応する推論時間法であるReinforcement Learning Guidance(RLG)を紹介する。
RLGは、RLの細調整されたモデルの性能を、人間の好み、構成制御、圧縮、テキストレンダリングなど、様々なRLアルゴリズム、下流タスクで一貫して改善している。
提案手法は,拡散モデルアライメント推論の強化と制御のための,実用的で理論的に健全な解を提供する。
論文 参考訳(メタデータ) (2025-08-28T17:18:31Z) - Model Steering: Learning with a Reference Model Improves Generalization Bounds and Scaling Laws [52.10468229008941]
本稿では,戦略データの選択や重み付けを通じて,対象モデルのトレーニングを指導・強化するための基準として,訓練モデルを用いた新たな学習パラダイムを定式化する。
提案手法は,参照モデルを持たないトレーニングと比較して,一般化とデータの効率性を改善する理由に関する理論的知見を提供する。
これらの知見に基づいて,DRRho-CLIPと呼ばれる参照モデルを用いたコントラスト言語-画像事前学習手法を提案する。
論文 参考訳(メタデータ) (2025-05-10T16:55:03Z) - Online Reward-Weighted Fine-Tuning of Flow Matching with Wasserstein Regularization [14.320131946691268]
本稿では,フローベース生成モデルのための,使いやすく,理論的に健全な微調整法を提案する。
提案手法は,オンライン報酬重み付け機構を導入することにより,データ多様体内の高次領域の優先順位付けをモデルに導出する。
本手法は,報酬と多様性のトレードオフを制御可能とし,最適な政策収束を実現する。
論文 参考訳(メタデータ) (2025-02-09T22:45:15Z) - Behavior-Regularized Diffusion Policy Optimization for Offline Reinforcement Learning [22.333460316347264]
本稿では,拡散型ポリシーに適した行動規則化RLフレームワークであるBDPOを紹介する。
我々は,行動制約を尊重しながら最適なポリシーを生成する,効率的な2時間スケールアクタークリティカルなRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2025-02-07T09:30:35Z) - Score as Action: Fine-Tuning Diffusion Generative Models by Continuous-time Reinforcement Learning [15.789898162610529]
人間のフィードバックからの強化学習(RLHF)は、信頼できる生成AIモデルを構築する上で重要なステップとなっている。
本研究は、連続時間RLを用いた微動拡散モデルに対する規律付きアプローチを開発することを目的とする。
論文 参考訳(メタデータ) (2025-02-03T20:50:05Z) - Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。
PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文 参考訳(メタデータ) (2024-07-18T17:35:32Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。