Fugu-MT 論文翻訳(概要): Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

論文の概要: Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening

arxiv url: http://arxiv.org/abs/2502.12146v1
Date: Mon, 17 Feb 2025 18:57:26 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.504002
Title: Diffusion-Sharpening: Fine-tuning Diffusion Models with Denoising Trajectory Sharpening
Title（参考訳）: 拡散シャープ化:軌道シャープ化を考慮した微調整拡散モデル
Authors: Ye Tian, Ling Yang, Xinchen Zhang, Yunhai Tong, Mengdi Wang, Bin Cui,
Abstract要約: 拡散シャープニング(Diffusion-Sharpening)は、サンプリング軌道を最適化することで下流のアライメントを向上させる微調整手法である。提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。
参考スコア（独自算出の注目度）: 56.99266993852532
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose Diffusion-Sharpening, a fine-tuning approach that enhances downstream alignment by optimizing sampling trajectories. Existing RL-based fine-tuning methods focus on single training timesteps and neglect trajectory-level alignment, while recent sampling trajectory optimization methods incur significant inference NFE costs. Diffusion-Sharpening overcomes this by using a path integral framework to select optimal trajectories during training, leveraging reward feedback, and amortizing inference costs. Our method demonstrates superior training efficiency with faster convergence, and best inference efficiency without requiring additional NFEs. Extensive experiments show that Diffusion-Sharpening outperforms RL-based fine-tuning methods (e.g., Diffusion-DPO) and sampling trajectory optimization methods (e.g., Inference Scaling) across diverse metrics including text alignment, compositional capabilities, and human preferences, offering a scalable and efficient solution for future diffusion model fine-tuning. Code: https://github.com/Gen-Verse/Diffusion-Sharpening
Abstract（参考訳）: サンプリング軌道の最適化により下流のアライメントを向上させる細調整手法であるDiffusion-Sharpeningを提案する。既存のRLベースファインチューニング手法は、単一トレーニング時間ステップと軌道レベルのアライメントを無視することに焦点を当て、最近のサンプリング軌道最適化手法は、かなりのNFEコストを発生させる。 Diffusion-Sharpeningは、パス積分フレームワークを使用してトレーニング中に最適な軌道を選択し、報酬フィードバックを活用し、推論コストを償却することで、これを克服する。提案手法は, NFEを必要とせず, より高速に収束し, 最高の推論効率を示す。拡散シャープ化はRLに基づく微調整法(例:拡散DPO)とサンプリング軌道最適化法(例:推論スケーリング)を、テキストアライメント、構成能力、人間の嗜好を含む様々なメトリクスにわたって改善し、将来の拡散モデル微調整のためのスケーラブルで効率的なソリューションを提供する。コード:https://github.com/Gen-Verse/Diffusion-Sharpening

関連論文リスト

Divergence Minimization Preference Optimization for Diffusion Model Alignment [58.651951388346525]
Divergence Minimization Preference Optimization (DMPO) は、逆KL分散を最小化して拡散モデルを整列する原理的手法である。その結果,DMPOで微調整した拡散モデルは,既存の手法よりも常に優れるか,一致しているかが示唆された。 DMPOは、優先順位調整のための堅牢でエレガントな経路を解き、拡散モデルにおいて実用的な性能を持つ原理的理論をブリッジする。
論文参考訳（メタデータ） (2025-07-10T07:57:30Z)
Discrete Diffusion Trajectory Alignment via Stepwise Decomposition [70.9024656666945]
マスク付き離散拡散モデルに対する新しい選好最適化法を提案する。最終的な出力に報酬を適用し、離散化プロセス全体への勾配をバックプロパゲートする代わりに、問題を段階的にアライメントする目的のセットに分解する。 DNA配列設計、タンパク質の逆フォールディング、言語モデリングを含む複数の領域にわたる実験は、我々のアプローチの優位性を一貫して示している。
論文参考訳（メタデータ） (2025-07-07T09:52:56Z)
VARD: Efficient and Dense Fine-Tuning for Diffusion Models with Value-based RL [28.95582264086289]
VAlue-based Reinforced Diffusion (VARD) は、中間状態から報酬の期待を予測する値関数を初めて学習する新しい手法である。提案手法は,バックプロパゲーションによる効果的な,安定したトレーニングを可能にしつつ,事前訓練されたモデルに近づき続ける。
論文参考訳（メタデータ） (2025-05-21T17:44:37Z)
ADT: Tuning Diffusion Models with Adversarial Supervision [16.974169058917443]
拡散モデルは、真のデータ分布を近似するために前方ノイズ発生過程を反転させることで、優れた画像生成を実現している。本稿では、最適化中の推論プロセスを刺激し、最終的な出力をトレーニングデータと整合させるために、Adrial Diffusion Tuning (ADT)を提案する。 ADTは、固定されたトレーニング済みのバックボーンと軽量なトレーニング可能なパラメータを備えたシアム-ネットワーク識別器を備えている。
論文参考訳（メタデータ） (2025-04-15T17:37:50Z)
A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning [61.403275660120606]
強化学習(Reinforcement Learning, RL)に基づく微調整は, 拡散モデルとブラックボックスの目的を整合させる強力なアプローチとして登場した。拡散微調整のための新しいRLであるLOOP(Left-one-out PPO)を提案する。以上の結果から, LOOPは様々なブラックボックス対象の拡散モデルを効果的に改善し, 計算効率と性能のバランスを良くすることを示す。
論文参考訳（メタデータ） (2025-03-02T13:43:53Z)
Over-the-Air Fair Federated Learning via Multi-Objective Optimization [52.295563400314094]
本稿では,公平なFLモデルを訓練するためのOTA-FFL(Over-the-air Fair Federated Learning Algorithm)を提案する。 OTA-FFLの公正性とロバストな性能に対する優位性を示す実験を行った。
論文参考訳（メタデータ） (2025-01-06T21:16:51Z)
Efficient Diversity-Preserving Diffusion Alignment via Gradient-Informed GFlowNets [65.42834731617226]
そこで我々は,Nabla-GFlowNetと呼ばれる拡散モデルファインタニングのための強化学習手法を提案する。提案手法は,大規模テキスト条件による画像拡散モデルである安定拡散の高速かつ多様かつ事前保存的な微調整を実現する。
論文参考訳（メタデータ） (2024-12-10T18:59:58Z)
Training-free Diffusion Model Alignment with Sampling Demons [15.400553977713914]
提案手法は,報酬関数やモデル再学習を介さずに,推論時の復調過程を導出するための最適化手法である。提案手法は,高報酬に対応する領域の密度を最適化することにより,雑音分布の制御を行う。我々の知る限り、提案手法は拡散モデルに対する最初の推論時間、バックプロパゲーションフリーな選好アライメント法である。
論文参考訳（メタデータ） (2024-10-08T07:33:49Z)
Optimizing Diffusion Models for Joint Trajectory Prediction and Controllable Generation [49.49868273653921]
拡散モデルは、自律運転における共同軌道予測と制御可能な生成を約束する。最適ガウス拡散(OGD)と推定クリーンマニフォールド(ECM)誘導を導入する。提案手法は生成過程の合理化を図り,計算オーバーヘッドを低減した実用的な応用を実現する。
論文参考訳（メタデータ） (2024-08-01T17:59:59Z)
FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。提案手法はSOTA法よりも10倍高速である。
論文参考訳（メタデータ） (2024-07-28T10:07:55Z)
Diffusion Models as Optimizers for Efficient Planning in Offline RL [47.0835433289033]
拡散モデルはオフラインの強化学習タスクにおいて強い競争力を示している。本稿では,より高速な自己回帰モデルを提案する。これにより、能力を犠牲にすることなく、より効率的な計画を達成することができます。
論文参考訳（メタデータ） (2024-07-23T03:00:01Z)
Understanding Reinforcement Learning-Based Fine-Tuning of Diffusion Models: A Tutorial and Review [63.31328039424469]
このチュートリアルは、下流の報酬関数を最適化するための微調整拡散モデルのための方法を網羅的に調査する。 PPO,微分可能最適化,報酬重み付きMLE,値重み付きサンプリング,経路整合性学習など,様々なRLアルゴリズムの適用について説明する。
論文参考訳（メタデータ） (2024-07-18T17:35:32Z)
Diffusion-ES: Gradient-free Planning with Diffusion for Autonomous Driving and Zero-Shot Instruction Following [21.81411085058986]
Reward-gradient guided denoisingは、微分可能報酬関数と拡散モデルによって捕捉されたデータ分布下での確率の両方を最大化する軌道を生成する。そこで我々は,勾配のない最適化と軌道デノゲーションを組み合わせたDiffusionESを提案する。 DiffusionESは、自動運転のための確立されたクローズドループ計画ベンチマークであるnuPlan上で、最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2024-02-09T17:18:33Z)
Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文参考訳（メタデータ） (2020-06-10T08:22:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。