Fugu-MT 論文翻訳(概要): Aligning Diffusion Models with Noise-Conditioned Perception

論文の概要: Aligning Diffusion Models with Noise-Conditioned Perception

arxiv url: http://arxiv.org/abs/2406.17636v1
Date: Tue, 25 Jun 2024 15:21:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-26 13:51:04.528227
Title: Aligning Diffusion Models with Noise-Conditioned Perception
Title（参考訳）: 雑音を考慮した拡散モデル
Authors: Alexander Gambashidze, Anton Kulikov, Yuriy Sosnin, Ilya Makarov,
Abstract要約: 拡散モデルは通常、ピクセルまたはVAE空間で最適化されるが、人間の知覚とうまく一致しない。本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。
参考スコア（独自算出の注目度）: 42.042822966928576
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent advancements in human preference optimization, initially developed for Language Models (LMs), have shown promise for text-to-image Diffusion Models, enhancing prompt alignment, visual appeal, and user preference. Unlike LMs, Diffusion Models typically optimize in pixel or VAE space, which does not align well with human perception, leading to slower and less efficient training during the preference alignment stage. We propose using a perceptual objective in the U-Net embedding space of the diffusion model to address these issues. Our approach involves fine-tuning Stable Diffusion 1.5 and XL using Direct Preference Optimization (DPO), Contrastive Preference Optimization (CPO), and supervised fine-tuning (SFT) within this embedding space. This method significantly outperforms standard latent-space implementations across various metrics, including quality and computational cost. For SDXL, our approach provides 60.8\% general preference, 62.2\% visual appeal, and 52.1\% prompt following against original open-sourced SDXL-DPO on the PartiPrompts dataset, while significantly reducing compute. Our approach not only improves the efficiency and quality of human preference alignment for diffusion models but is also easily integrable with other optimization techniques. The training code and LoRA weights will be available here: https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1
Abstract（参考訳）: 言語モデル(LM)向けに開発された人間の嗜好最適化の最近の進歩により、テキストから画像への拡散モデルが約束され、迅速なアライメント、視覚的魅力、ユーザの嗜好が向上している。 LMとは異なり、拡散モデルは通常、人間の知覚とうまく一致しないピクセルやVAE空間で最適化される。本稿では,これらの問題に対処するために,拡散モデルのU-Net埋め込み空間における知覚的目的を用いることを提案する。提案手法では,DPO(Direct Preference Optimization),CPO(Contrastive Preference Optimization),SFT(supervised fine-tuning)を用いて,安定拡散1.5およびXLの微調整を行う。この手法は、品質や計算コストなど、様々な指標で標準のラテント空間の実装を著しく上回っている。 SDXLの場合、我々のアプローチは、PartiPromptsデータセット上のオリジナルのオープンソースSDXL-DPOに対して、60.8\%の一般的な好み、62.2\%の視覚的魅力、52.1\%のプロンプトを提供する。提案手法は,拡散モデルにおける人間の嗜好アライメントの効率と品質を改善するだけでなく,他の最適化手法と容易に統合可能である。トレーニングコードとLoRAウェイトは以下の通りである。 https://huggingface.co/alexgambashidze/SDXL\_NCP-DPO\_v0.1

関連論文リスト

Smoothed Preference Optimization via ReNoise Inversion for Aligning Diffusion Models with Varied Human Preferences [13.588231827053923]
直接選好最適化(DPO)は、テキスト・ツー・イメージ(T2I)生成モデルと、ペアの選好データを用いた人間の選好を一致させる。本稿では, DPO の目的を改善するために, 好み分布をモデル化する新しい手法である SmPO-Diffusion を提案する。提案手法は,既存手法における過度な最適化と客観的なミスアライメントの問題を効果的に軽減する。
論文参考訳（メタデータ） (2025-06-03T09:47:22Z)
Self-NPO: Negative Preference Optimization of Diffusion Models by Simply Learning from Itself without Explicit Preference Annotations [60.143658714894336]
拡散モデルは、画像、ビデオ、および3Dコンテンツ生成を含む様々な視覚生成タスクにおいて顕著な成功を収めている。優先度最適化(PO)は、これらのモデルを人間の嗜好に合わせることを目的とした、顕著で成長している研究分野である。モデル自体からのみ学習する負の選好最適化アプローチであるSelf-NPOを導入する。
論文参考訳（メタデータ） (2025-05-17T01:03:46Z)
InPO: Inversion Preference Optimization with Reparametrized DDIM for Efficient Diffusion Model Alignment [12.823734370183482]
拡散モデルの直接選好アライメント法であるDDIM-InPOを導入する。提案手法は拡散モデルを単一ステップ生成モデルとして概念化し,特定の潜伏変数の出力を選択的に微調整する。実験結果から, DDIM-InPOは400ステップの微調整で最先端の性能を達成できることがわかった。
論文参考訳（メタデータ） (2025-03-24T08:58:49Z)
Diffusion Model as a Noise-Aware Latent Reward Model for Step-Level Preference Optimization [46.888425016169144]
拡散モデルの優先度最適化は、画像を人間の好みに合わせることを目的としている。従来の方法では、ビジョンランゲージモデル(VLM)を画素レベルの報酬モデルとして活用し、人間の好みを近似する。本研究では,拡散モデルが潜伏空間におけるステップレベルの報酬モデリングに本質的に適していることを示す。本稿では,遅延空間において,ステップレベルの優先度最適化を直接的に行う手法であるLatent Preference Optimization (LPO)を紹介する。
論文参考訳（メタデータ） (2025-02-03T04:51:28Z)
Personalized Preference Fine-tuning of Diffusion Models [75.22218338096316]
拡散モデルとパーソナライズされた嗜好を整合させるマルチリワード最適化の目的であるPDを導入する。 PPDでは、拡散モデルがユーザーの個人の好みを数秒で学習する。提案手法は,Stable Cascadeに対して平均76%の勝利率を達成し,特定のユーザの好みをより正確に反映した画像を生成する。
論文参考訳（メタデータ） (2025-01-11T22:38:41Z)
DiP-GO: A Diffusion Pruner via Few-step Gradient Optimization [22.546989373687655]
本稿では,よりインテリジェントで微分可能なプルーナーを用いて,効率的な拡散モデルを導出する新しいプルーニング法を提案する。提案手法はSD-1.5の4.4倍の高速化を実現し,従来の最先端手法よりも優れていた。
論文参考訳（メタデータ） (2024-10-22T12:18:24Z)
FIND: Fine-tuning Initial Noise Distribution with Policy Optimization for Diffusion Models [10.969811500333755]
本稿では,FIND(Fincent-tuning Initial Noise Distribution)フレームワークのポリシー最適化について紹介する。提案手法はSOTA法よりも10倍高速である。
論文参考訳（メタデータ） (2024-07-28T10:07:55Z)
Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文参考訳（メタデータ） (2024-06-10T15:42:03Z)
Adaptive Preference Scaling for Reinforcement Learning with Human Feedback [103.36048042664768]
人間からのフィードバックからの強化学習(RLHF)は、AIシステムと人間の価値を合わせるための一般的なアプローチである。本稿では,分散ロバスト最適化(DRO)に基づく適応的優先損失を提案する。提案手法は多用途であり,様々な選好最適化フレームワークに容易に適用可能である。
論文参考訳（メタデータ） (2024-06-04T20:33:22Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文参考訳（メタデータ） (2024-02-01T18:51:54Z)
Diffusion Model Alignment Using Direct Preference Optimization [103.2238655827797]
拡散DPOは,ヒトの比較データを直接最適化することにより,拡散モデルを人間の嗜好に合わせる手法である。拡散DPOを用いた最先端安定拡散XL(SDXL)-1.0モデルの基礎モデルを微調整する。また、AIフィードバックを使用し、人間の好みのトレーニングに匹敵するパフォーマンスを持つ亜種も開発しています。
論文参考訳（メタデータ） (2023-11-21T15:24:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。