論文の概要: Are we really tilting? The mechanics of reward guidance in flow and diffusion models
- arxiv url: http://arxiv.org/abs/2606.02884v1
- Date: Mon, 01 Jun 2026 20:56:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.605105
- Title: Are we really tilting? The mechanics of reward guidance in flow and diffusion models
- Title(参考訳): 本当に傾いているのか?フローモデルと拡散モデルにおける報酬誘導の力学
- Authors: Sanjit Dandapanthula, Nicholas M. Boffi,
- Abstract要約: 逆誘導アルゴリズムは、学習した生成過程を推論時に報奨型尺度に導出する。
経験的に強力だが、これらの手法はハッキングに報いる傾向にある。
報酬誘導拡散の最も実践的な実装における近似から報奨ハッキングが発生することを示す。
- 参考スコア(独自算出の注目度): 1.4064491732635236
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reward guidance algorithms steer a learned generative process toward the reward-tilted measure at inference time. While empirically powerful, these methods are prone to reward hacking: the guided model over-optimizes the reward at the cost of fidelity to the learned distribution. Prior work has attributed this to the complexity of neural reward functions or implicit biases in diffusion training, but its fundamental origins remain poorly understood. We show that reward hacking arises from an approximation made in most practical implementations of reward-guided diffusion -- finite-particle plug-in estimation of the Doob h-function -- even in the simplest non-trivial settings of Gaussian and Gaussian mixture targets with quadratic rewards. In closed form, we isolate two distinct failure modes of the plug-in estimator: it leads to reward hacking within each mode and it cannot select high-reward modes. We propose a closed-form reward damping schedule that corrects the within-mode bias with no additional compute, and clarify the role of best-of-n sampling in compensating for the mode selection failure. Experiments on Gaussian mixture targets, a 2D checkerboard, and FLUX.1 text-to-image generation confirm that our theoretical insights carry over to practical settings.
- Abstract(参考訳): 逆誘導アルゴリズムは、学習した生成過程を推論時に報奨型尺度に導出する。
ガイドされたモデルは、学習された分布に対する忠実さを犠牲にして報酬を過度に最適化する。
これまでの研究では、神経報酬関数の複雑さや拡散訓練における暗黙のバイアスが原因とされているが、その根本的な起源はよく分かっていない。
報奨ハッキングは、2次報酬を持つガウスとガウスの混合ターゲットの最も単純な非自明な設定であっても、報酬誘導拡散(Doob h関数の有限粒子プラグイン推定)の最も実践的な実装において行われる近似から生じることを示す。
クローズド形式では、プラグイン推定器の2つの異なる障害モードを分離する。
モード内バイアスを余分な計算で補正し,モード選択失敗を補償する上でのベスト・オブ・nサンプリングの役割を明らかにする。
ガウス混合ターゲット、2Dチェッカーボード、FLUX.1のテキスト・ツー・イメージ生成実験により、我々の理論的洞察が実践的な設定まで続くことを確認した。
関連論文リスト
- MARBLE: Multi-Aspect Reward Balance for Diffusion RL [71.6241143519038]
強化学習は、拡散モデルと人間の嗜好を整合させる主要なアプローチとなっている。
既存のプラクティスは、報酬ごとに1つのスペシャリストモデルをトレーニングすることで、複数の報酬を処理します。
我々は,各報酬に対する独立な優位推定器を維持する勾配空間最適化フレームワークMARBLEを提案する。
論文 参考訳(メタデータ) (2026-05-07T16:20:42Z) - Training-Free Adaptation of Diffusion Models via Doob's $h$-Transform [37.05492050174751]
DOIT(Doob-Oriented Inference-time Transformation)は、トレーニング不要で計算効率のよい適応法である。
我々は,この輸送を実現するためにDoobの$h$-transformを利用し,拡散サンプリングプロセスに対する動的補正を誘導する。
本手法はサンプリング効率を保ちながら常に最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2026-02-18T05:44:19Z) - FAIL: Flow Matching Adversarial Imitation Learning for Image Generation [52.643484089126844]
フローマッチングモデルのポストトレーニング-高品質な目標値による出力分布の調整-数学的にはImitation Learningと等価である。
本研究では,明示的な報酬やペア比較を伴わずに,対人訓練による政策-専門的差異を最小限に抑えるフローマッチング・アドリアラーニング(FAIL)を提案する。
論文 参考訳(メタデータ) (2026-02-12T16:36:33Z) - GDRO: Group-level Reward Post-training Suitable for Diffusion Models [55.948229011478304]
グループレベルの報酬は、モデルを目標とする報酬と整合させるのに成功します。
Group-level Direct Reward Optimization (GDRO)は、グループレベルの報酬アライメントのための新しいトレーニング後のパラダイムである。
GDROは完全なオフライントレーニングをサポートし、画像ロールアウトサンプリングの大幅なコスト削減を実現する。
これは拡散サンプラー非依存であり、取得性に対するODE-to-SDE近似の必要性を排除している。
論文 参考訳(メタデータ) (2026-01-05T11:47:18Z) - Test-time scaling of diffusions with flow maps [68.79792714591564]
テスト時の拡散モデルを改善するための一般的なレシピは、報酬の勾配を拡散そのものの力学に導入することである。
フローマップを直接扱うことで,簡単な解を提案する。
本研究では, 流図と流速場の関係を利用して, 従来のテスト時間法よりも精度の高いフローマップトラジェクトリ・ティルティング (FMTT) アルゴリズムを構築した。
論文 参考訳(メタデータ) (2025-11-27T18:44:12Z) - Conditioning Diffusions Using Malliavin Calculus [18.62300657866048]
生成的モデリングと最適制御において、中央の計算タスクは、与えられた端末時間報酬を最大化するために参照拡散プロセスを変更することである。
本稿では,Tweedieスコア公式の非線形微分方程式への一般化を中心に,Malliavin計算に基づく新しい枠組みを導入する。
これにより、拡散ブリッジや、すでに訓練済みの拡散モデルに条件付き制御を追加するような、幅広いアプリケーションを扱うことができます。
論文 参考訳(メタデータ) (2025-04-04T14:10:21Z) - RED: Unleashing Token-Level Rewards from Holistic Feedback via Reward Redistribution [50.171320156632866]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための有望なアプローチを提供する。
現在の報酬モデルはシークエンス・ツー・ワンモデルとして動作し、単一、スパース、遅延報酬を全出力シーケンスに割り当てる。
よりきめ細かなトークンレベルの指導手法をRLトレーニングに提案する。
論文 参考訳(メタデータ) (2024-11-13T02:45:21Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Extracting Reward Functions from Diffusion Models [7.834479563217133]
意思決定拡散モデルは、低品質のデータに基づいて訓練し、報酬関数で操り、準最適軌道を生成する。
本研究では,低逆挙動をモデル化する意思決定拡散モデルと高逆挙動をモデル化するモデルを比較することで,報酬関数を抽出する問題を考察する。
提案手法は,2つの大規模画像生成拡散モデルから報酬様関数を学習することにより,シーケンシャルな意思決定を超えて一般化することを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。