論文の概要: ShortFT: Diffusion Model Alignment via Shortcut-based Fine-Tuning
- arxiv url: http://arxiv.org/abs/2507.22604v1
- Date: Wed, 30 Jul 2025 12:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-31 16:14:18.179796
- Title: ShortFT: Diffusion Model Alignment via Shortcut-based Fine-Tuning
- Title(参考訳): ShortFT:ショートカットベースファインチューニングによる拡散モデルアライメント
- Authors: Xiefan Guo, Miaomiao Cui, Liefeng Bo, Di Huang,
- Abstract要約: バックプロパゲーションに基づくアプローチは、エンドツーエンドのバックプロパゲーションを通じて拡散モデルを報酬関数と整合させることを目的としている。
既存のアプローチは、完全な勾配のバックプロパゲーションを達成するのに苦労し、最適以下の結果をもたらす。
本稿では,ショートカットに基づくファインチューニング(ShortFT)を提案する。
- 参考スコア(独自算出の注目度): 30.15527534084413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Backpropagation-based approaches aim to align diffusion models with reward functions through end-to-end backpropagation of the reward gradient within the denoising chain, offering a promising perspective. However, due to the computational costs and the risk of gradient explosion associated with the lengthy denoising chain, existing approaches struggle to achieve complete gradient backpropagation, leading to suboptimal results. In this paper, we introduce Shortcut-based Fine-Tuning (ShortFT), an efficient fine-tuning strategy that utilizes the shorter denoising chain. More specifically, we employ the recently researched trajectory-preserving few-step diffusion model, which enables a shortcut over the original denoising chain, and construct a shortcut-based denoising chain of shorter length. The optimization on this chain notably enhances the efficiency and effectiveness of fine-tuning the foundational model. Our method has been rigorously tested and can be effectively applied to various reward functions, significantly improving alignment performance and surpassing state-of-the-art alternatives.
- Abstract(参考訳): バックプロパゲーションに基づくアプローチは、デノナイジングチェーン内の報酬勾配のエンドツーエンドのバックプロパゲーションを通じて、拡散モデルと報酬関数を整合させることを目的としており、期待できる視点を提供する。
しかし、計算コストと長い縮退連鎖に付随する勾配爆発のリスクのため、既存の手法は完全な勾配のバックプロパゲーションを達成するのに苦労し、最適以下の結果をもたらす。
本稿では,ショートカットに基づくファインチューニング(ShortFT)を提案する。
より具体的には、最近研究された軌道保存数ステップ拡散モデルを用いて、元のデノナイジングチェーンをショートカットし、短い長さのショートカットベースのデノナイジングチェーンを構築する。
この連鎖の最適化は、基礎モデルの微調整の効率性と効果を顕著に向上させる。
提案手法は厳密に検証され,様々な報酬関数に効果的に適用可能であり,アライメント性能を著しく向上し,最先端の代替品を上回ることができる。
関連論文リスト
- Train with Perturbation, Infer after Merging: A Two-Stage Framework for Continual Learning [59.6658995479243]
P&M(texttext-Perturb-and-Merge)は,モデルマージをCLパラダイムに統合し,忘れることを避けるための新しい連続学習フレームワークである。
理論的解析により、全てのタスクにおける総損失増加を最小化し、最適マージ係数の解析解を導出する。
提案手法は,複数の連続学習ベンチマークデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-05-28T14:14:19Z) - Optimizing for the Shortest Path in Denoising Diffusion Model [8.884907787678731]
最短経路拡散モデル(ShortDF)は、復調誤差の最小化を目的とした最短経路問題である。
複数の標準ベンチマークの実験により、ShortDFは拡散時間(またはステップ)を大幅に短縮することが示された。
この研究は、インタラクティブな拡散ベースのアプリケーションへの道を開き、高速なデータ生成の基礎を確立します。
論文 参考訳(メタデータ) (2025-03-05T08:47:36Z) - Reward-Guided Iterative Refinement in Diffusion Models at Test-Time with Applications to Protein and DNA Design [87.58981407469977]
進化的アルゴリズムにインスパイアされた拡散モデルを用いた推論時間報酬最適化のための新しいフレームワークを提案する。
当社のアプローチでは,各イテレーションにおける2つのステップ – ノイズ発生と報酬誘導という,反復的な改善プロセスを採用しています。
論文 参考訳(メタデータ) (2025-02-20T17:48:45Z) - Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening [56.99266993852532]
拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。
提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
論文 参考訳(メタデータ) (2025-02-17T18:57:26Z) - Directly Fine-Tuning Diffusion Models on Differentiable Rewards [22.1685707267062]
本稿では,微分可能報酬関数を最大化するために,拡散モデルを微調整するダイレクト・リワード・ファイン・チューニング(DRaFT)を提案する。
まず,全サンプリング手順で報酬関数勾配を逆伝播させることで,様々な報酬に対して高い性能が得られることを示す。
提案手法は,様々な報酬関数に対して有効であり,安定拡散1.4で生成した画像の美的品質を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-09-29T17:01:02Z) - Conditional Denoising Diffusion for Sequential Recommendation [62.127862728308045]
GAN(Generative Adversarial Networks)とVAE(VAE)の2つの顕著な生成モデル
GANは不安定な最適化に苦しむ一方、VAEは後続の崩壊と過度に平らな世代である。
本稿では,シーケンスエンコーダ,クロスアテンティブデノナイジングデコーダ,ステップワイズディフューザを含む条件付きデノナイジング拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-04-22T15:32:59Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。