論文の概要: Preference Alignment on Diffusion Model: A Comprehensive Survey for Image Generation and Editing
- arxiv url: http://arxiv.org/abs/2502.07829v1
- Date: Mon, 10 Feb 2025 20:25:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:49:32.229248
- Title: Preference Alignment on Diffusion Model: A Comprehensive Survey for Image Generation and Editing
- Title(参考訳): 拡散モデルにおける選好アライメント:画像の生成と編集に関する包括的調査
- Authors: Sihao Wu, Xiaonan Si, Chi Xing, Jianhong Wang, Gaojie Jin, Guangliang Cheng, Lijun Zhang, Xiaowei Huang,
- Abstract要約: 画像生成と編集機能を向上させるための変換手法として,拡散モデル (DM) との嗜好アライメントの統合が出現している。
本稿では、画像生成と編集における拡散モデルとの嗜好の整合性について広範囲に調査する。
- 参考スコア(独自算出の注目度): 28.24911022177785
- License:
- Abstract: The integration of preference alignment with diffusion models (DMs) has emerged as a transformative approach to enhance image generation and editing capabilities. Although integrating diffusion models with preference alignment strategies poses significant challenges for novices at this intersection, comprehensive and systematic reviews of this subject are still notably lacking. To bridge this gap, this paper extensively surveys preference alignment with diffusion models in image generation and editing. First, we systematically review cutting-edge optimization techniques such as reinforcement learning with human feedback (RLHF), direct preference optimization (DPO), and others, highlighting their pivotal role in aligning preferences with DMs. Then, we thoroughly explore the applications of aligning preferences with DMs in autonomous driving, medical imaging, robotics, and more. Finally, we comprehensively discuss the challenges of preference alignment with DMs. To our knowledge, this is the first survey centered on preference alignment with DMs, providing insights to drive future innovation in this dynamic area.
- Abstract(参考訳): 画像生成と編集能力を高めるための変換的アプローチとして, 拡散モデル(DM)との嗜好アライメントの統合が出現している。
拡散モデルと嗜好アライメント戦略を統合することは、この交差点で初心者にとって重要な課題となっているが、この主題の包括的かつ体系的なレビューは、まだ顕著に欠落している。
このギャップを埋めるために、画像生成と編集における拡散モデルとの嗜好整合を広範囲に調査する。
まず、人間フィードバックによる強化学習(RLHF)、直接選好最適化(DPO)などの最先端最適化手法を体系的に検討し、DMとの整合における彼らの重要な役割を強調した。
そして、自律運転、医用画像、ロボット工学などにおけるDMとの整合性について、徹底的に検討する。
最後に、DMとの嗜好調整の課題を包括的に論じる。
我々の知る限り、この調査はDMとの嗜好の整合に焦点を当てた初めての調査であり、このダイナミックな領域における将来のイノベーションを促進するための洞察を提供する。
関連論文リスト
- Dynamic Detection of Relevant Objectives and Adaptation to Preference Drifts in Interactive Evolutionary Multi-Objective Optimization [2.4374097382908477]
意思決定過程を通じて進化し,目的の関連性に影響を与えるDM選好の動的性質について検討する。
このような変化が起こると、時代遅れや相反する好みを解消する手法を提案する。
実験により,提案手法は進化する嗜好を効果的に管理し,アルゴリズムが生成するソリューションの品質と望ましさを著しく向上することを示した。
論文 参考訳(メタデータ) (2024-11-07T09:09:06Z) - A Comprehensive Survey of Direct Preference Optimization: Datasets, Theories, Variants, and Applications [52.42860559005861]
DPO(Direct Preference Optimization)は、アライメントのための有望なアプローチとして登場した。
DPOの様々な進歩と固有の制限にもかかわらず、これらの側面の詳細なレビューは現在、文献に欠けている。
論文 参考訳(メタデータ) (2024-10-21T02:27:24Z) - MODULI: Unlocking Preference Generalization via Diffusion Models for Offline Multi-Objective Reinforcement Learning [36.24516512865215]
多目的強化学習(MORL)は、複数の対立する目標を同時に最適化する政策の開発を目指している。
オフラインMORLは、事前コンパイルされたデータセットをトレーニングして、デプロイ時の任意の好みに一般化することで、有望なソリューションを提供する。
既存のオフラインMORLアルゴリズムは、OOD選好の一般化が不十分であり、結果として、選好と一致しないポリシーが生じる。
本稿では,様々な嗜好に整合した軌道を生成するためのプランナーとして,嗜好条件付き拡散モデルを用いたMODULIを提案する。
論文 参考訳(メタデータ) (2024-08-28T03:10:45Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Explore the LiDAR-Camera Dynamic Adjustment Fusion for 3D Object Detection [38.809645060899065]
カメラとLiDARは、正確で堅牢な自動運転システムの情報センサーとして機能する。
これらのセンサーは、しばしば異質な性質を示し、分布のモダリティギャップをもたらす。
モーダル分布の整合と効果的なモーダル表現の学習を目的とした動的調整技術を導入する。
論文 参考訳(メタデータ) (2024-07-22T02:42:15Z) - Latent Directions: A Simple Pathway to Bias Mitigation in Generative AI [45.54709270833219]
生成的AIにおけるバイアスの緩和、特にテキスト・ツー・イメージのモデルは、社会にその影響が拡大していることを考えると、非常に重要である。
本研究は,潜在空間の方向を学習することで,多種多様な包摂的合成画像を実現するための新しいアプローチを提案する。
これらの学習された遅延方向を線形に組み合わせて、新しい緩和を導入し、望めばテキスト埋め込み調整と統合することができる。
論文 参考訳(メタデータ) (2024-06-10T15:13:51Z) - Inter-slice Super-resolution of Magnetic Resonance Images by Pre-training and Self-supervised Fine-tuning [49.197385954021456]
臨床実践では、2次元磁気共鳴(MR)シーケンスが広く採用されている。個々の2次元スライスを積み重ねて3次元ボリュームを形成できるが、比較的大きなスライスススペーシングは可視化とその後の解析タスクに課題をもたらす可能性がある。
スライス間隔を低減するため,ディープラーニングに基づく超解像技術が広く研究されている。
現在のほとんどのソリューションは、教師付きトレーニングのために、かなりの数の高解像度と低解像度の画像を必要とするが、通常は現実のシナリオでは利用できない。
論文 参考訳(メタデータ) (2024-06-10T02:20:26Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - DragDiffusion: Harnessing Diffusion Models for Interactive Point-based Image Editing [94.24479528298252]
DragGANは、ピクセルレベルの精度で印象的な編集結果を実現する、インタラクティブなポイントベースの画像編集フレームワークである。
大規模な事前学習拡散モデルを利用することで、実画像と拡散画像の両方における対話的点ベース編集の適用性を大幅に向上する。
本稿では,対話的点ベース画像編集手法の性能を評価するため,DragBenchというベンチマークデータセットを提案する。
論文 参考訳(メタデータ) (2023-06-26T06:04:09Z) - A Generic Approach for Enhancing GANs by Regularized Latent Optimization [79.00740660219256]
本稿では,事前学習したGANを効果的かつシームレスに拡張できる,エミュレーティブモデル推論と呼ばれる汎用フレームワークを提案する。
我々の基本的な考え方は、ワッサーシュタイン勾配流法を用いて与えられた要求に対する最適潜時分布を効率的に推算することである。
論文 参考訳(メタデータ) (2021-12-07T05:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。