論文の概要: Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.14408v3
- Date: Sun, 14 Jul 2024 21:51:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 05:08:47.337517
- Title: Text-Anchored Score Composition: Tackling Condition Misalignment in Text-to-Image Diffusion Models
- Title(参考訳): テキストアンコレッドスコア構成:テキスト-画像拡散モデルにおけるタックリング条件の相違
- Authors: Luozhou Wang, Guibao Shen, Wenhang Ge, Guangyong Chen, Yijun Li, Ying-cong Chen,
- Abstract要約: 既存のモデルの制御性を改善するために,テキストアンコールスコア合成(TASC)と呼ばれる学習自由アプローチを提案する。
そこで本研究では,これらを個別に計算した結果に対して,新たな競合を回避するためのクロスアテンション機構を用いてアテンション操作を提案する。
- 参考スコア(独自算出の注目度): 35.02969643344228
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have advanced towards more controllable generation via supporting various additional conditions (e.g.,depth map, bounding box) beyond text. However, these models are learned based on the premise of perfect alignment between the text and extra conditions. If this alignment is not satisfied, the final output could be either dominated by one condition, or ambiguity may arise, failing to meet user expectations. To address this issue, we present a training free approach called Text-Anchored Score Composition (TASC) to further improve the controllability of existing models when provided with partially aligned conditions. The TASC firstly separates conditions based on pair relationships, computing the result individually for each pair. This ensures that each pair no longer has conflicting conditions. Then we propose an attention realignment operation to realign these independently calculated results via a cross-attention mechanism to avoid new conflicts when combining them back. Both qualitative and quantitative results demonstrate the effectiveness of our approach in handling unaligned conditions, which performs favorably against recent methods and more importantly adds flexibility to the controllable image generation process. Our code will be available at: https://github.com/EnVision-Research/Decompose-and-Realign.
- Abstract(参考訳): テキスト間の拡散モデルは、テキストを超えて様々な追加条件(例えば、深度マップ、バウンディングボックス)をサポートすることによって、より制御可能な生成に向かって進んでいる。
しかし、これらのモデルは、テキストと余分な条件の完全な整合という前提に基づいて学習される。
このアライメントが満たされていない場合、最終的なアウトプットは1つの条件によって支配されるか、曖昧さが生まれ、ユーザの期待を満たさない可能性がある。
この問題に対処するため,テキストアンコールスコア合成(TASC)と呼ばれる学習自由な手法を提案する。
TASCはまず、ペアの関係に基づいて条件を分離し、それぞれのペアに対して個別に結果を計算する。
これにより、各ペアに競合状態がもはやないことが保証される。
そこで本研究では,これら独立して計算した結果を相互注意機構によって認識し,新たな競合を回避するための注意集中操作を提案する。
定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件処理における我々のアプローチの有効性を示すものである。
私たちのコードは、https://github.com/EnVision-Research/Decompose-and-Realign.comで利用可能です。
関連論文リスト
- Beat: Bi-directional One-to-Many Embedding Alignment for Text-based Person Retrieval [66.61856014573742]
テキストベースの人物検索(TPR)は、テキスト記述に基づいて特定の個人を検索する難題である。
これまでは、テキストと画像のサンプルをモーダルシェード空間で整列させようと試みてきた。
本稿では,各サンプルに対して明確な最適化方向を提供する,効果的な双方向一対多埋め込みパラダイムを提案する。
論文 参考訳(メタデータ) (2024-06-09T03:06:55Z) - ECNet: Effective Controllable Text-to-Image Diffusion Models [31.21525123716149]
本稿では,条件付きテキスト・ツー・イメージモデルに対する2つの革新的なソリューションを提案する。
まず,テキスト入力を正確なアノテーション情報で符号化することで,条件の詳細性を高める空間ガイダンス(SGI)を提案する。
第二に、条件付き監督の制限を克服するため、拡散整合損失を導入する。
これにより、各ステップにおける潜時符号と入力信号との一貫性が促進され、出力の堅牢性と精度が向上する。
論文 参考訳(メタデータ) (2024-03-27T10:09:38Z) - PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Noisy-Correspondence Learning for Text-to-Image Person Re-identification [50.07634676709067]
本稿では,雑音対応においても頑健な視覚関係を学習するための新しいロバスト二重埋め込み法(RDE)を提案する。
提案手法は,3つのデータセット上での合成ノイズ対応と非合成ノイズ対応を両立させる。
論文 参考訳(メタデータ) (2023-08-19T05:34:13Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Refign: Align and Refine for Adaptation of Semantic Segmentation to
Adverse Conditions [78.71745819446176]
Refignは、ドメイン間の通信を利用する自己学習ベースのUDAメソッドへの汎用的な拡張である。
Refign は,(1) 不確実性を認識した高密度マッチングネットワークを用いて,正常条件画像と対応する悪条件画像とを整列させ,(2) 適応ラベル補正機構を用いて正常予測で悪条件予測を精査する。
このアプローチでは、追加のトレーニングパラメータや、トレーニングのみの計算オーバーヘッドの最小化は導入されず、任意の自己学習ベースのUDAメソッドを改善するためにドロップイン拡張として使用することができる。
論文 参考訳(メタデータ) (2022-07-14T11:30:38Z) - Macroscopic Control of Text Generation for Image Captioning [4.742874328556818]
問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
論文 参考訳(メタデータ) (2021-01-20T07:20:07Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。