論文の概要: Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image
- arxiv url: http://arxiv.org/abs/2505.14341v1
- Date: Tue, 20 May 2025 13:27:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.255781
- Title: Replace in Translation: Boost Concept Alignment in Counterfactual Text-to-Image
- Title(参考訳): 翻訳におけるリプレース: 対実的テキスト・トゥ・イメージにおける概念アライメントの促進
- Authors: Sifan Li, Ming Tao, Hao Zhao, Ling Shao, Hao Tang,
- Abstract要約: 我々は,この代替プロセスを明示論理ナラティブ・プロンプト (ELNP) と呼ぶ方法を提案する。
合成画像において,プロンプトに要求される概念を平均的にカバーできる数を計算するための計量を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
- 参考スコア(独自算出の注目度): 53.09546752700792
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-Image (T2I) has been prevalent in recent years, with most common condition tasks having been optimized nicely. Besides, counterfactual Text-to-Image is obstructing us from a more versatile AIGC experience. For those scenes that are impossible to happen in real world and anti-physics, we should spare no efforts in increasing the factual feel, which means synthesizing images that people think very likely to be happening, and concept alignment, which means all the required objects should be in the same frame. In this paper, we focus on concept alignment. As controllable T2I models have achieved satisfactory performance for real applications, we utilize this technology to replace the objects in a synthesized image in latent space step-by-step to change the image from a common scene to a counterfactual scene to meet the prompt. We propose a strategy to instruct this replacing process, which is called as Explicit Logical Narrative Prompt (ELNP), by using the newly SoTA language model DeepSeek to generate the instructions. Furthermore, to evaluate models' performance in counterfactual T2I, we design a metric to calculate how many required concepts in the prompt can be covered averagely in the synthesized images. The extensive experiments and qualitative comparisons demonstrate that our strategy can boost the concept alignment in counterfactual T2I.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)は近年普及しており、ほとんどの条件タスクは順調に最適化されている。
さらに、対物的テキスト・トゥ・イメージは、より汎用的なAIGC体験から私たちを妨げている。
現実の世界や反物理学では不可能なシーンでは、現実的な感覚を増す努力は不要です。つまり、人々が非常に起こりそうなイメージを合成し、概念的なアライメントは、すべての必要なオブジェクトが同じフレームに置かれるべきなのです。
本稿では,概念の整合性に着目した。
制御可能なT2Iモデルは実アプリケーションにおいて良好な性能を達成したので、この技術を用いて、合成画像中のオブジェクトを段階的に潜時空間で置き換え、共通シーンから反実シーンに切り替えてプロンプトを満たす。
本稿では,新たなSoTA言語モデルであるDeepSeekを用いて,ELNP(Explicit Logical Narrative Prompt)と呼ばれる,この代替プロセスの指示方法を提案する。
さらに, モデルの性能を評価するために, 合成画像において, プロンプトに必要となる概念を平均的にカバーできるかを計算する指標を設計する。
大規模な実験と定性比較により、我々の戦略が反実的T2Iの概念の整合性を高めることが示される。
関連論文リスト
- TIPS: Text-Image Pretraining with Spatial awareness [13.38247732379754]
自己教師付き画像のみの事前訓練は、多くの視覚的応用にとって依然としてゴートな方法である。
本稿では,高密度かつグローバルな視覚タスクのために,棚から効果的に利用可能な汎用画像テキストモデルを提案する。
論文 参考訳(メタデータ) (2024-10-21T21:05:04Z) - Commonsense-T2I Challenge: Can Text-to-Image Generation Models Understand Commonsense? [97.0899853256201]
本稿では,実生活におけるコモンセンスと整合した画像を生成するためのテキスト・ツー・イメージ生成モデルの能力を評価するための新しいタスクとベンチマークを提案する。
我々は、T2Iモデルが、例えば「電球は無光である」と「電球は無光である」というようなイメージを生成できるかどうかを評価する。
さまざまな最先端(ソータ)のT2Iモデルをベンチマークした結果、画像合成と実写写真の間にはまだ大きなギャップがあることがわかった。
論文 参考訳(メタデータ) (2024-06-11T17:59:48Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - Prompt-Free Diffusion: Taking "Text" out of Text-to-Image Diffusion
Models [94.25020178662392]
テキスト・トゥ・イメージ(T2I)の研究はこの1年で爆発的に成長した。
テキストプロンプトエンジニアリングと、カスタマイズされた結果のための高品質なテキストプロンプトの検索は、科学よりも芸術的だ。
本稿では,事前学習したT2I拡散モデルから"Text"を抽出し,ユーザの負担を軽減した。
論文 参考訳(メタデータ) (2023-05-25T16:30:07Z) - LeftRefill: Filling Right Canvas based on Left Reference through
Generalized Text-to-Image Diffusion Model [55.20469538848806]
leftRefillは、参照誘導画像合成のための大規模なテキスト・ツー・イメージ(T2I)拡散モデルを利用する革新的なアプローチである。
本稿では、参照誘導画像合成に大規模なテキスト・ツー・イメージ拡散モデル(T2I)を効果的に活用するための革新的なアプローチであるLeftRefillを紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:29:42Z) - Text to Image Generation with Semantic-Spatial Aware GAN [41.73685713621705]
テキストから画像生成(T2I)モデルは、テキスト記述と意味的に一致するフォトリアリズム画像を生成することを目的としている。
本稿では,テキストエンコーダがより良いテキスト情報を活用できるように,エンドツーエンドで訓練された新しいフレームワークSemantic-Spatial Aware GANを提案する。
論文 参考訳(メタデータ) (2021-04-01T15:48:01Z) - Scene Text Synthesis for Efficient and Effective Deep Network Training [62.631176120557136]
我々は,背景画像に前景オブジェクトを埋め込むことで,注釈付き訓練画像を構成する革新的な画像合成技術を開発した。
提案手法は,ディープネットワークトレーニングにおける合成画像の有用性を高める2つの重要な要素から構成される。
複数の公開データセットに対する実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2019-01-26T10:15:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。