論文の概要: A Dense Reward View on Aligning Text-to-Image Diffusion with Preference
- arxiv url: http://arxiv.org/abs/2402.08265v1
- Date: Tue, 13 Feb 2024 07:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:19:45.861166
- Title: A Dense Reward View on Aligning Text-to-Image Diffusion with Preference
- Title(参考訳): テキストと画像の拡散を優先的に調整するDense Reward View
- Authors: Shentao Yang, Tianqi Chen, Mingyuan Zhou
- Abstract要約: 本稿では,T2I逆鎖の初期ステップを強調する,トラクタブルアライメントの目的を提案する。
単一および複数プロンプト生成の実験では,本手法は強い関連するベースラインと競合する。
- 参考スコア(独自算出の注目度): 61.175861413985054
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Aligning text-to-image diffusion model (T2I) with preference has been gaining
increasing research attention. While prior works exist on directly optimizing
T2I by preference data, these methods are developed under the bandit assumption
of a latent reward on the entire diffusion reverse chain, while ignoring the
sequential nature of the generation process. From literature, this may harm the
efficacy and efficiency of alignment. In this paper, we take on a finer dense
reward perspective and derive a tractable alignment objective that emphasizes
the initial steps of the T2I reverse chain. In particular, we introduce
temporal discounting into the DPO-style explicit-reward-free loss, to break the
temporal symmetry therein and suit the T2I generation hierarchy. In experiments
on single and multiple prompt generation, our method is competitive with strong
relevant baselines, both quantitatively and qualitatively. Further studies are
conducted to illustrate the insight of our approach.
- Abstract(参考訳): 好みのテキスト・画像拡散モデル(T2I)が研究の注目を集めている。
優先データによるT2Iを直接最適化する以前の研究は存在するが、これらの手法は、生成過程のシーケンシャルな性質を無視しつつ、拡散逆鎖全体の遅延報酬のバンドイット仮定の下で開発されている。
文学上、これはアライメントの有効性と効率を損なう可能性がある。
本稿では, t2i逆鎖の初期段階を強調する, より精細な報酬の視点を取り, 移動可能なアライメント目標を導出する。
特に,dpoスタイルの明示的後退損失に時間的ディスカウントを導入し,時間対称性を壊し,t2i生成階層に適合させる。
単一および複数プロンプト生成実験において,本手法は定量的および定性的に,強い関連するベースラインと競合する。
我々のアプローチの洞察を説明するために、さらなる研究が行われた。
関連論文リスト
- DEADiff: An Efficient Stylization Diffusion Model with Disentangled
Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。
この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。
DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文 参考訳(メタデータ) (2024-03-11T17:35:23Z) - ProTIP: Probabilistic Robustness Verification on Text-to-Image Diffusion
Models against Stochastic Perturbation [19.01129064153707]
テキスト・ツー・イメージ(T2I)拡散モデル(DM)は、単純なテキスト記述に基づいて高品質な画像を生成する際、印象的な能力を示した。
多くのディープラーニング(DL)モデルに共通するように、DMは堅牢性に欠ける。
本稿では,T2I DMのロバスト性に関する確率論的概念を導入し,統計的保証で評価するための効率的なフレームワークであるProTIPを確立する。
論文 参考訳(メタデータ) (2024-02-23T16:48:56Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - Beyond First-Order Tweedie: Solving Inverse Problems using Latent
Diffusion [41.758635460235716]
我々はSurrogate Loss (STSL) の2階Tweedieサンプルについて紹介する。
STSLは、二階近似を用いたトラクタブル・リバース・プロセスを備えた一階Tweedieに匹敵する効率性を提供する。
提案手法は,PSLDとP2Lを超越し,神経機能評価の4倍,8倍の低減を実現した。
論文 参考訳(メタデータ) (2023-12-01T14:36:24Z) - Debiasing the Cloze Task in Sequential Recommendation with Bidirectional
Transformers [0.0]
Inverse Propensity Scoring (IPS) は、問題の時間的性質を考慮しないため、逐次的なレコメンデーションに拡張されない。
そこで我々は,Clozeタスクの逐次的推奨を理論的に無視できる新しい確率スコアリング機構を提案する。
論文 参考訳(メタデータ) (2023-01-22T21:44:25Z) - Improving Crowded Object Detection via Copy-Paste [6.941267349187447]
類似した物体同士の重なり合いによって引き起こされる群集性は、2次元視覚的物体検出の分野においてユビキタスな課題である。
1) IoU-confidence correlation disturbances (ICD) と 2) confused de-duplication (CDD) の2つの主な効果について述べる。
論文 参考訳(メタデータ) (2022-11-22T09:25:15Z) - Extracting or Guessing? Improving Faithfulness of Event Temporal
Relation Extraction [87.04153383938969]
本研究では,TempRel抽出モデルの忠実度を2つの観点から改善する。
第1の視点は、文脈記述に基づいて真に抽出することである。
第2の視点は、適切な不確実性評価を提供することである。
論文 参考訳(メタデータ) (2022-10-10T19:53:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。