論文の概要: A Dense Reward View on Aligning Text-to-Image Diffusion with Preference
- arxiv url: http://arxiv.org/abs/2402.08265v2
- Date: Sun, 12 May 2024 21:02:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 00:13:55.193647
- Title: A Dense Reward View on Aligning Text-to-Image Diffusion with Preference
- Title(参考訳): テキストと画像の拡散を優先的に調整するDense Reward View
- Authors: Shentao Yang, Tianqi Chen, Mingyuan Zhou,
- Abstract要約: 本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
- 参考スコア(独自算出の注目度): 54.43177605637759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning text-to-image diffusion model (T2I) with preference has been gaining increasing research attention. While prior works exist on directly optimizing T2I by preference data, these methods are developed under the bandit assumption of a latent reward on the entire diffusion reverse chain, while ignoring the sequential nature of the generation process. This may harm the efficacy and efficiency of preference alignment. In this paper, we take on a finer dense reward perspective and derive a tractable alignment objective that emphasizes the initial steps of the T2I reverse chain. In particular, we introduce temporal discounting into DPO-style explicit-reward-free objectives, to break the temporal symmetry therein and suit the T2I generation hierarchy. In experiments on single and multiple prompt generation, our method is competitive with strong relevant baselines, both quantitatively and qualitatively. Further investigations are conducted to illustrate the insight of our approach.
- Abstract(参考訳): 好みのテキスト・画像拡散モデル(T2I)の調整が研究の注目を集めている。
優先データによるT2Iを直接最適化する以前の研究は存在するが、これらの手法は、生成過程のシーケンシャルな性質を無視しつつ、拡散逆鎖全体に対する遅延報酬のバンドイット仮定の下で開発されている。
これは選好アライメントの有効性と効率を損なう可能性がある。
本稿では,T2I逆鎖の初期ステップを強調する,より微細な報酬視点を導出し,トラクタブルアライメントの目的を導出する。
特に、時間的対称性を破り、T2I生成階層に適合するように、DPOスタイルの明示的回帰自由目的に時間的割引を導入する。
単一および複数プロンプト生成実験において,本手法は定量的および定性的に,強い関連するベースラインと競合する。
我々のアプローチの洞察を説明するために、さらなる調査が行われた。
関連論文リスト
- Privacy Protection in Personalized Diffusion Models via Targeted Cross-Attention Adversarial Attack [5.357486699062561]
本稿では,CoPSAM(Selective Attention Manipulation)による新規かつ効率的な対向攻撃法を提案する。
この目的のために、クリーンなサンプルに付加される知覚不可能なノイズを慎重に構築し、その逆のノイズを得る。
CelebA-HQ顔画像データセットのサブセットに対する実験的検証は、我々のアプローチが既存の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-11-25T14:39:18Z) - Diffusion-RPO: Aligning Diffusion Models through Relative Preference Optimization [68.69203905664524]
拡散に基づくT2Iモデルと人間の嗜好をより効率的に整合させる新しい手法であるDiffusion-RPOを紹介する。
我々は,高いコストと低い解釈可能性の課題を克服することを目的とした,新しい評価基準であるスタイルアライメントを開発した。
その結果,拡散-RPO は安定拡散バージョン1.5 と XL-1.0 の調整において超微調整や拡散-DPO などの確立された手法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-10T15:42:03Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Beyond First-Order Tweedie: Solving Inverse Problems using Latent
Diffusion [41.758635460235716]
我々はSurrogate Loss (STSL) の2階Tweedieサンプルについて紹介する。
STSLは、二階近似を用いたトラクタブル・リバース・プロセスを備えた一階Tweedieに匹敵する効率性を提供する。
提案手法は,PSLDとP2Lを超越し,神経機能評価の4倍,8倍の低減を実現した。
論文 参考訳(メタデータ) (2023-12-01T14:36:24Z) - Debiasing the Cloze Task in Sequential Recommendation with Bidirectional
Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。
そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-22T21:44:25Z) - Improving Crowded Object Detection via Copy-Paste [6.941267349187447]
類似した物体同士の重なり合いによって引き起こされる群集性は、2次元視覚的物体検出の分野においてユビキタスな課題である。
1) IoU-confidence correlation disturbances (ICD) と 2) confused de-duplication (CDD) の2つの主な効果について述べる。
論文 参考訳(メタデータ) (2022-11-22T09:25:15Z) - Bias-Robust Bayesian Optimization via Dueling Bandit [57.82422045437126]
ベイジアン最適化は、観測が逆偏りとなるような環境において考慮する。
情報指向サンプリング(IDS)に基づくダリングバンディットの新しい手法を提案する。
これにより、累積的後悔保証を伴う帯域幅の並列化のための、最初の効率的なカーネル化アルゴリズムが得られる。
論文 参考訳(メタデータ) (2021-05-25T10:08:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。