論文の概要: Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer
- arxiv url: http://arxiv.org/abs/2502.00639v3
- Date: Sun, 28 Sep 2025 09:20:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:08.800456
- Title: Half-order Fine-Tuning for Diffusion Model: A Recursive Likelihood Ratio Optimizer
- Title(参考訳): 拡散モデルのための半階ファインチューニング:再帰的比最適化器
- Authors: Tao Ren, Zishi Zhang, Jingyang Jiang, Zehao Li, Shentao Qin, Yi Zheng, Guanghao Li, Qianyou Sun, Yan Li, Jiafeng Liang, Xinping Li, Yijie Peng,
- Abstract要約: 確率拡散モデル(DM)は、連鎖構造を通して推論することで内容を生成する。
現代の手法は強化学習 (RL) と切り離されたバックプロパゲーション (BP) に基づいている
DMのためのRLR(Recursive Likelihood Ratio)ファインチューニングパラダイムを提案する。
- 参考スコア(独自算出の注目度): 16.103949557802988
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The probabilistic diffusion model (DM), generating content by inferencing through a recursive chain structure, has emerged as a powerful framework for visual generation. After pre-training on enormous data, the model needs to be properly aligned to meet requirements for downstream applications. How to efficiently align the foundation DM is a crucial task. Contemporary methods are either based on Reinforcement Learning (RL) or truncated Backpropagation (BP). However, RL and truncated BP suffer from low sample efficiency and biased gradient estimation, respectively, resulting in limited improvement or, even worse, complete training failure. To overcome the challenges, we propose the Recursive Likelihood Ratio (RLR) optimizer, a Half-Order (HO) fine-tuning paradigm for DM. The HO gradient estimator enables the computation graph rearrangement within the recursive diffusive chain, making the RLR's gradient estimator an unbiased one with lower variance than other methods. We theoretically investigate the bias, variance, and convergence of our method. Extensive experiments are conducted on image and video generation to validate the superiority of the RLR. Furthermore, we propose a novel prompt technique that is natural for the RLR to achieve a synergistic effect.
- Abstract(参考訳): 確率的拡散モデル(DM)は、再帰的連鎖構造を通して参照することでコンテンツを生成するものであり、視覚生成のための強力なフレームワークとして現れている。
膨大なデータを事前トレーニングした後は、ダウンストリームアプリケーションの要件を満たすために、モデルを適切に整列する必要がある。
DMを効率的に調整する方法は重要な課題である。
現代の手法は強化学習(Reinforcement Learning, RL)または切り捨てバックプロパゲーション(Truncated Backpropagation, BP)に基づいている。
しかし, RL と truncated BP はそれぞれ低い試料効率と偏差勾配推定に悩まされ, 改善が限定されたり, さらに悪いことに, 完全な訓練失敗が生じた。
この課題を克服するために、DMのための半順序(HO)ファインチューニングパラダイムであるRLR(Recursive Likelihood Ratio)オプティマイザを提案する。
HO勾配推定器は再帰的拡散鎖内の計算グラフの再配置を可能にし、RLR勾配推定器を他の方法よりも低分散の偏りのない非偏り値とする。
理論的には,本手法の偏り,分散,収束について検討する。
RLRの優位性を検証するため、画像および映像生成に関する大規模な実験を行った。
さらに,RLRが相乗効果を得るのに自然な新しいプロンプト手法を提案する。
関連論文リスト
- Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Optimizing Chain-of-Thought Reasoners via Gradient Variance Minimization in Rejection Sampling and RL [20.177871969184004]
チェーン・オブ・シント(CoT)推論は、モデルが中間的推論ステップを生成する必要がある潜在変数問題として形式化することができる。
反復的な報酬ランクの微調整のような以前のアプローチは、難易度と収束挙動の変動を考慮しない。
本稿では,計算予算制約下での勾配分散を最小限に抑えるために,プロンプト固有の動的サンプル割当戦略であるGVMRAFTを提案する。
論文 参考訳(メタデータ) (2025-05-05T06:26:00Z) - Likelihood-Ratio Regularized Quantile Regression: Adapting Conformal Prediction to High-Dimensional Covariate Shifts [35.16750653336608]
ピンボール損失を正規化の新たな選択と組み合わせた正準比正則化量子回帰アルゴリズムを提案する。
LR-QR法は,対象領域の所望レベルにおいて,最小限の誤差項までカバレッジを有することを示す。
実験により、LR-QRアルゴリズムは、高次元予測タスクにおいて既存の手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-02-18T16:46:44Z) - Truncating Trajectories in Monte Carlo Policy Evaluation: an Adaptive Approach [51.76826149868971]
モンテカルロシミュレーションによる政策評価は多くのMC強化学習(RL)アルゴリズムの中核にある。
本研究では,異なる長さの軌跡を用いた回帰推定器の平均二乗誤差のサロゲートとして品質指標を提案する。
本稿では,Robust and Iterative Data Collection Strategy Optimization (RIDO) という適応アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-17T11:47:56Z) - Efficient Diffusion as Low Light Enhancer [63.789138528062225]
RATR(Reflectance-Aware Trajectory Refinement)は、イメージの反射成分を用いて教師の軌跡を洗練するための、シンプルで効果的なモジュールである。
textbfReDDiT (textbfDistilled textbfTrajectory) は低照度画像強調(LLIE)に適した効率的で柔軟な蒸留フレームワークである。
論文 参考訳(メタデータ) (2024-10-16T08:07:18Z) - Zeroth-Order Policy Gradient for Reinforcement Learning from Human Feedback without Reward Inference [15.038210624870656]
リワード推論は、ヒューマンフィードバックパイプラインからの強化学習における重要な中間ステップである。
本稿では,帯域幅を超える一般RL問題と決定論的MDP帯域幅,Bradley-Terryモデルを超える一般選好モデルについて,報酬推論のない2つのRLHFアルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-09-25T22:20:11Z) - REBEL: Reinforcement Learning via Regressing Relative Rewards [59.68420022466047]
生成モデルの時代における最小限のRLアルゴリズムであるREBELを提案する。
理論的には、自然ポリシーグラディエントのような基本的なRLアルゴリズムはREBELの変種と見なすことができる。
我々はREBELが言語モデリングと画像生成に一貫したアプローチを提供し、PPOやDPOとより強くあるいは類似した性能を実現することを発見した。
論文 参考訳(メタデータ) (2024-04-25T17:20:45Z) - Estimating the Hessian Matrix of Ranking Objectives for Stochastic Learning to Rank with Gradient Boosted Trees [63.18324983384337]
グラディエントブースト決定木(GBDT)のランク付け手法について紹介する。
我々の主な貢献は、二階微分、すなわちヘッセン行列に対する新しい推定器である。
推定器を既存のPL-Rankフレームワークに組み込む。
論文 参考訳(メタデータ) (2024-04-18T13:53:32Z) - CoRMF: Criticality-Ordered Recurrent Mean Field Ising Solver [4.364088891019632]
我々は、RNNに基づく効率的なIsingモデル解法、Criticality-ordered Recurrent Mean Field (CoRMF)を提案する。
基礎となるIsingグラフの近似木構造を利用することで、新しく得られた臨界度順序は、変動平均場とRNNの統一を可能にする。
CoRFMはデータ/証拠のない自己学習方式でIsing問題を解き、RNNから直接サンプリングすることで推論タスクを実行することができる。
論文 参考訳(メタデータ) (2024-03-05T16:55:06Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。