論文の概要: DeRaDiff: Denoising Time Realignment of Diffusion Models
- arxiv url: http://arxiv.org/abs/2601.20198v1
- Date: Wed, 28 Jan 2026 02:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.741182
- Title: DeRaDiff: Denoising Time Realignment of Diffusion Models
- Title(参考訳): DeRadiff: 拡散モデルのタイムアライメントを悪用する
- Authors: Ratnavibusena Don Shahain Manujith, Yang Zhang, Teoh Tze Tzun, Kenji Kawaguchi,
- Abstract要約: 正しい正規化の強さをどのように選ぶか。
DeRaDiffはサンプリング中の正規化強度を変調し、追加のトレーニングや微調整なしに他の正規化強度でトレーニングされたモデルをエミュレートする。
本手法は, 正則化強度の異なるスクラッチから完全に整列したモデルに対して, 常に強い近似を与える。
- 参考スコア(独自算出の注目度): 45.23864679259705
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances align diffusion models with human preferences to increase aesthetic appeal and mitigate artifacts and biases. Such methods aim to maximize a conditional output distribution aligned with higher rewards whilst not drifting far from a pretrained prior. This is commonly enforced by KL (Kullback Leibler) regularization. As such, a central issue still remains: how does one choose the right regularization strength? Too high of a strength leads to limited alignment and too low of a strength leads to "reward hacking". This renders the task of choosing the correct regularization strength highly non-trivial. Existing approaches sweep over this hyperparameter by aligning a pretrained model at multiple regularization strengths and then choose the best strength. Unfortunately, this is prohibitively expensive. We introduce DeRaDiff, a denoising time realignment procedure that, after aligning a pretrained model once, modulates the regularization strength during sampling to emulate models trained at other regularization strengths without any additional training or finetuning. Extending decoding-time realignment from language to diffusion models, DeRaDiff operates over iterative predictions of continuous latents by replacing the reverse step reference distribution by a geometric mixture of an aligned and reference posterior, thus giving rise to a closed form update under common schedulers and a single tunable parameter, lambda, for on the fly control. Our experiments show that across multiple text image alignment and image-quality metrics, our method consistently provides a strong approximation for models aligned entirely from scratch at different regularization strengths. Thus, our method yields an efficient way to search for the optimal strength, eliminating the need for expensive alignment sweeps and thereby substantially reducing computational costs.
- Abstract(参考訳): 近年の進歩は, 美的魅力を高め, 人工物やバイアスを軽減するために, 拡散モデルと人間の嗜好を一致させている。
このような手法は,事前訓練前の値から遠ざかることなく,より高い報酬に整合した条件出力分布を最大化することを目的としている。
これは一般に KL (Kullback Leibler) 正規化によって強制される。
適切な正規化の強度をどうやって選ぶのか?
強度が高すぎるとアライメントが制限され、強度が低すぎると"リワードハック"につながる。
これにより、正しい正則化強度を選択するタスクは非自明である。
既存のアプローチは、トレーニング済みのモデルを複数の正規化強度で整列し、最適な強度を選択することで、このハイパーパラメータを網羅する。
残念なことに、これは非常に高価だ。
DeRaDiffは、事前訓練されたモデルを一度調整した後、サンプリング中に正規化強度を調整し、追加のトレーニングや微調整なしに他の正規化強度で訓練されたモデルをエミュレートする。
DeRadiffは言語から拡散モデルへの復号時間再配置を拡張し、逆ステップ参照分布をアライメントと参照後部の幾何学的混合によって置き換えることで、フライコントロールのための共通スケジューラと単一のチューニング可能なパラメータであるラムダのクローズドなフォーム更新を実現する。
実験の結果,複数のテキスト画像アライメントと画像品質の指標を用いて,スクラッチから完全に整列したモデルに対して,異なる正規化強度で強い近似を与えることができた。
そこで本手法は, 高いアライメントスイープの必要性を排除し, 計算コストを大幅に削減し, 最適な強度を求める効率的な方法である。
関連論文リスト
- OSCAR: Orthogonal Stochastic Control for Alignment-Respecting Diversity in Flow Matching [14.664226708184676]
フローベースのテキスト・ツー・イメージモデルは決定論的軌跡に従っており、ユーザーは様々なモードを見つけるために繰り返しサンプルを採取せざるを得ない。
本稿では,フロー自体を多様性に配慮した,トレーニング不要な推論時間制御機構を提案する。
論文 参考訳(メタデータ) (2025-10-10T07:07:19Z) - ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。
本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。
ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文 参考訳(メタデータ) (2025-04-15T17:37:50Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Decoding-time Realignment of Language Models [44.54462397717971]
そこで本研究では, 整列モデルの正則化強度をリトレーニングせずに探索し, 評価する手法を提案する。
DeRaはアライメントの度合いをコントロールし、アンアライメントモデルとアライメントモデルのスムーズな移行を可能にする。
論文 参考訳(メタデータ) (2024-02-05T13:31:28Z) - One More Step: A Versatile Plug-and-Play Module for Rectifying Diffusion
Schedule Flaws and Enhancing Low-Frequency Controls [77.42510898755037]
One More Step (OMS) は、推論中に単純だが効果的なステップを付加したコンパクトネットワークである。
OMSは画像の忠実度を高め、トレーニングと推論の二分法を調和させ、元のモデルパラメータを保存する。
トレーニングが完了すると、同じ潜在ドメインを持つ様々な事前訓練された拡散モデルが同じOMSモジュールを共有することができる。
論文 参考訳(メタデータ) (2023-11-27T12:02:42Z) - DR-Tune: Improving Fine-tuning of Pretrained Visual Models by
Distribution Regularization with Semantic Calibration [38.4461170690033]
セマンティックキャリブレーションを用いた分布正規化(DR-Tune)という,新しい微調整フレームワークを提案する。
DR-Tuneは、下流タスクヘッドを強制して、事前訓練された特徴分布の分類誤差を低減することで、分散正則化を採用する。
セマンティックドリフトによる干渉を軽減するため,セマンティックキャリブレーション(SC)モジュールを開発した。
論文 参考訳(メタデータ) (2023-08-23T10:59:20Z) - Debiased Fine-Tuning for Vision-language Models by Prompt Regularization [56.48290708901531]
本稿では,Prompt Regularization(ProReg)と呼ばれる下流タスクにおける大規模視覚事前訓練モデルの微調整のための新しいパラダイムを提案する。
ProRegは、事前訓練されたモデルに微調整を正規化するよう促すことで予測を使用する。
本稿では,従来の微調整,ゼロショットプロンプト,プロンプトチューニング,その他の最先端手法と比較して,ProRegの性能が一貫して高いことを示す。
論文 参考訳(メタデータ) (2023-01-29T11:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。