論文の概要: Decompose and Realign: Tackling Condition Misalignment in Text-to-Image
Diffusion Models
- arxiv url: http://arxiv.org/abs/2306.14408v1
- Date: Mon, 26 Jun 2023 03:48:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-27 15:07:29.699020
- Title: Decompose and Realign: Tackling Condition Misalignment in Text-to-Image
Diffusion Models
- Title(参考訳): テキストから画像への拡散モデルにおける条件不一致の解消と実現
- Authors: Luozhou Wang, Guibao Shen, Yijun Li, Ying-cong Chen
- Abstract要約: そこで本研究では,既存のモデルの制御性を改善するために,「分解と現実性」と呼ばれる学習自由な手法を提案する。
定性的かつ定量的な結果は,不整合条件に対する我々のアプローチの有効性を示すものである。
- 参考スコア(独自算出の注目度): 22.276516322933126
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-image diffusion models have advanced towards more controllable
generation via supporting various image conditions (e.g., depth map) beyond
text. However, these models are learned based on the premise of perfect
alignment between the text and image conditions. If this alignment is not
satisfied, the final output could be either dominated by one condition, or
ambiguity may arise, failing to meet user expectations. To address this issue,
we present a training-free approach called "Decompose and Realign'' to further
improve the controllability of existing models when provided with partially
aligned conditions. The ``Decompose'' phase separates conditions based on pair
relationships, computing scores individually for each pair. This ensures that
each pair no longer has conflicting conditions. The "Realign'' phase aligns
these independently calculated scores via a cross-attention mechanism to avoid
new conflicts when combing them back. Both qualitative and quantitative results
demonstrate the effectiveness of our approach in handling unaligned conditions,
which performs favorably against recent methods and more importantly adds
flexibility to the controllable image generation process.
- Abstract(参考訳): テキスト間の拡散モデルは、テキスト以外の様々な画像条件(例えば深度マップ)をサポートすることによって、より制御可能な生成に向かって進んでいる。
しかし、これらのモデルは、テキストと画像条件の完全なアライメントの前提に基づいて学習される。
このアライメントが満たされない場合、最終的なアウトプットは1つの条件で支配されるか、曖昧さがユーザの期待を満たさない可能性がある。
To address this issue, we present a training-free approach called "Decompose and Realign'' to further improve the controllability of existing models when provided with partially aligned conditions. The ``Decompose'' phase separates conditions based on pair relationships, computing scores individually for each pair. This ensures that each pair no longer has conflicting conditions. The "Realign'' phase aligns these independently calculated scores via a cross-attention mechanism to avoid new conflicts when combing them back.
定性的かつ定量的な結果は、最近の手法に対して有利に機能し、制御可能な画像生成プロセスに柔軟性を付加する不整合条件に対する我々のアプローチの有効性を示すものである。
関連論文リスト
- PLACE: Adaptive Layout-Semantic Fusion for Semantic Image Synthesis [62.29033292210752]
一貫性のあるセマンティクスとレイアウトを備えた高品質なイメージは依然として課題である。
本稿では,前述した問題を緩和するために,事前学習モデルを利用したadaPtive LAyout-semantiC fusion modulE (PLACE)を提案する。
われわれのアプローチは、視覚的品質、セマンティック一貫性、レイアウトアライメントの観点から好意的に機能する。
論文 参考訳(メタデータ) (2024-03-04T09:03:16Z) - Divide, Evaluate, and Refine: Evaluating and Improving Text-to-Image
Alignment with Iterative VQA Feedback [20.78162037954646]
テキストと画像のアライメントの評価と改善に対する分解的アプローチを導入する。
人間のユーザスタディでは、提案手法が従来の最先端の手法を8.7%超え、テキストと画像のアライメントの精度が向上した。
論文 参考訳(メタデータ) (2023-07-10T17:54:57Z) - Late-Constraint Diffusion Guidance for Controllable Image Synthesis [15.16204528664876]
拡散モデルでは、テキスト条件の有無にかかわらず、少数の単語が与えられたり、あるいは全くない画像の合成能力を示す。
我々は拡散ネットワークをそのままにしておくが、その出力は要求条件に適合するように制約する。
提案手法は,既存の早期制約法よりも優れ,未確認条件の一般化に優れる。
論文 参考訳(メタデータ) (2023-05-19T08:40:01Z) - High-Fidelity Guided Image Synthesis with Latent Diffusion Models [50.39294302741698]
提案手法は, ユーザ満足度スコアを85.32%以上上回り, 従来の最先端技術よりも優れていた。
人的ユーザ調査の結果、提案手法は、全体のユーザ満足度スコアにおいて、従来の最先端技術よりも85.32%以上優れていたことが示されている。
論文 参考訳(メタデータ) (2022-11-30T15:43:20Z) - Maximum Likelihood on the Joint (Data, Condition) Distribution for
Solving Ill-Posed Problems with Conditional Flow Models [0.0]
所定のルールを用いてフローモデルをトレーニングするためのトリックを、最大限のサロゲートとして記述する。
これらの特性を、容易に視覚化された玩具問題に示し、その手法を用いて、クラス条件画像の生成に成功した。
論文 参考訳(メタデータ) (2022-08-24T21:50:25Z) - Training and Inference on Any-Order Autoregressive Models the Right Way [97.39464776373902]
Any-Order Autoregressive Models (AO-ARMs) のファミリは、任意の条件付きタスクにおいてブレークスルーのパフォーマンスを示している。
我々は、AO-ARMの以前の定式化に対して行うべき重要な改善について確認する。
本手法はトラクタビリティを損なうことなく性能を向上する。
論文 参考訳(メタデータ) (2022-05-26T18:00:02Z) - Diverse Semantic Image Synthesis via Probability Distribution Modeling [103.88931623488088]
新規な多様な意味的画像合成フレームワークを提案する。
本手法は最先端手法と比較して優れた多様性と同等の品質を実現することができる。
論文 参考訳(メタデータ) (2021-03-11T18:59:25Z) - Macroscopic Control of Text Generation for Image Captioning [4.742874328556818]
問題を解くために2つの新しい方法が導入された。
前者問題に対して,文品質,文長,文時制,名詞数などのマクロ文属性を制御可能な制御信号を導入する。
後者の問題に対して,画像テキストマッチングモデルを用いて,前向きと後向きの両方で生成した文の品質を測定し,最終的に適切な文を選択する戦略を革新的に提案する。
論文 参考訳(メタデータ) (2021-01-20T07:20:07Z) - Self-Calibration Supported Robust Projective Structure-from-Motion [80.15392629310507]
本稿では,自己校正制約によってマッチングプロセスが支持される統合されたStructure-from-Motion (SfM)法を提案する。
これらの制約を利用して,ロバストなマルチビューマッチングと正確なカメラキャリブレーションを示す実験結果を示す。
論文 参考訳(メタデータ) (2020-07-04T08:47:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。