論文の概要: Decompose and Realign: Tackling Condition Misalignment in Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.14408v1
- Date: Mon, 26 Jun 2023 03:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:07:29.699020
- Title: Decompose and Realign: Tackling Condition Misalignment in Text-to-Image
Diffusion Models
- Title(参考訳): テキストから画像への拡散モデルにおける条件不一致の解消と実現
- Authors: Luozhou Wang, Guibao Shen, Yijun Li, Ying-cong Chen
- Abstract要約: そこで本研究では,既存のモデルの制御性を改善するために,「分解と現実性」と呼ばれる学習自由な手法を提案する。
定性的かつ定量的な結果は,不整合条件に対する我々のアプローチの有効性を示すものである。
- 参考スコア(独自算出の注目度): 22.276516322933126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have advanced towards more controllable
generation via supporting various image conditions (e.g., depth map) beyond
text. However, these models are learned based on the premise of perfect
alignment between the text and image conditions. If this alignment is not
satisfied, the final output could be either dominated by one condition, or
ambiguity may arise, failing to meet user expectations. To address this issue,
we present a training-free approach called "Decompose and Realign'' to further
improve the controllability of existing models when provided with partially
aligned conditions. The ``Decompose'' phase separates conditions based on pair
relationships, computing scores individually for each pair. This ensures that
each pair no longer has conflicting conditions. The "Realign'' phase aligns
these independently calculated scores via a cross-attention mechanism to avoid
new conflicts when combing them back. Both qualitative and quantitative results
demonstrate the effectiveness of our approach in handling unaligned conditions,
which performs favorably against recent methods and more importantly adds
flexibility to the controllable image generation process.
- Abstract(参考訳): テキスト間の拡散モデルは、テキスト以外の様々な画像条件(例えば深度マップ)をサポートすることによって、より制御可能な生成に向かって進んでいる。
しかし、これらのモデルは、テキストと画像条件の完全なアライメントの前提に基づいて学習される。
このアライメントが満たされない場合、最終的なアウトプットは1つの条件で支配されるか、曖昧さがユーザの期待を満たさない可能性がある。
To address this issue, we present a training-free approach called "Decompose and Realign'' to further improve the controllability of existing models when provided with partially aligned conditions. The ``Decompose'' phase separates conditions based on pair relationships, computing scores individually for each pair. This ensures that each pair no longer has conflicting conditions. The "Realign'' phase aligns these independently calculated scores via a cross-attention mechanism to avoid new conflicts when combing them back.
定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件に対する我々のアプローチの有効性を示すものである。
関連論文リスト
- Adapting Diffusion Models for Improved Prompt Compliance and Controllable Image Synthesis [43.481539150288434]
この作品は新しい家族を紹介します。
因子グラフ拡散モデル(FG-DM)
FG-DMは結合分布をモデル化する。
イメージやコンディショニング変数、例えばセマンティック、スケッチなどです。
因子グラフ分解による 奥行きや正常な地図です
論文 参考訳(メタデータ) (2024-10-29T00:54:00Z) - Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - Macroscopic Control of Text Generation for Image Captioning [4.742874328556818]
問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
論文 参考訳(メタデータ) (2021-01-20T07:20:07Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。