論文の概要: UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2508.05399v1
- Date: Thu, 07 Aug 2025 13:51:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.886906
- Title: UNCAGE: Contrastive Attention Guidance for Masked Generative Transformers in Text-to-Image Generation
- Title(参考訳): UNCAGE:テキスト・画像生成におけるマスク生成変換器のコントラストアテンションガイダンス
- Authors: Wonjun Kang, Byeongkeun Ahn, Minjae Lee, Kevin Galim, Seunghyuk Oh, Hyung Il Koo, Nam Ik Cho,
- Abstract要約: Masked Generative Transformersは、因果的注意と自己回帰的復号化の固有の限界を克服するために、Autoregressive Modelsに代わるものとして注目を集めている。
本研究では,注意マップを活用することで構成の忠実度を向上させる新しいトレーニングフリー手法であるunmasking with Contrastive Attention Guidance (UNCAGE)を提案する。
UNCAGEは、複数のベンチマークとメトリクスにわたる定量評価と定性評価の両方のパフォーマンスを、無視可能な推論オーバーヘッドで一貫して改善する。
- 参考スコア(独自算出の注目度): 15.585320469279813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image (T2I) generation has been actively studied using Diffusion Models and Autoregressive Models. Recently, Masked Generative Transformers have gained attention as an alternative to Autoregressive Models to overcome the inherent limitations of causal attention and autoregressive decoding through bidirectional attention and parallel decoding, enabling efficient and high-quality image generation. However, compositional T2I generation remains challenging, as even state-of-the-art Diffusion Models often fail to accurately bind attributes and achieve proper text-image alignment. While Diffusion Models have been extensively studied for this issue, Masked Generative Transformers exhibit similar limitations but have not been explored in this context. To address this, we propose Unmasking with Contrastive Attention Guidance (UNCAGE), a novel training-free method that improves compositional fidelity by leveraging attention maps to prioritize the unmasking of tokens that clearly represent individual objects. UNCAGE consistently improves performance in both quantitative and qualitative evaluations across multiple benchmarks and metrics, with negligible inference overhead. Our code is available at https://github.com/furiosa-ai/uncage.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)生成は拡散モデルと自己回帰モデルを用いて活発に研究されている。
近年,両方向の注意と並列復号化による因果的注意と自己回帰的復号化の固有の限界を克服し,効率よく高品質な画像生成を実現するために,自動回帰モデルに代わる方法としてマスケ生成変換器が注目されている。
しかし、構成的T2I生成は、最先端の拡散モデルでさえ、属性を正確にバインドし、適切なテキストイメージアライメントを達成するのに失敗することが多いため、依然として困難である。
拡散モデルはこの問題に関して広く研究されているが、Masked Generative Transformersも同様の限界を示すが、この文脈では研究されていない。
そこで本研究では,個々の対象を明確に表現するトークンのアンマキングを優先するためにアテンションマップを活用することで,構成の忠実度を向上させる新しいトレーニングフリー手法であるUnmasking with Contrastive Attention Guidance(UNCAGE)を提案する。
UNCAGEは、複数のベンチマークとメトリクスにわたる定量評価と定性評価の両方のパフォーマンスを、無視可能な推論オーバーヘッドで継続的に改善する。
私たちのコードはhttps://github.com/furiosa-ai/uncage.comから入手可能です。
関連論文リスト
- Rethinking Cross-Modal Interaction in Multimodal Diffusion Transformers [79.94246924019984]
マルチモーダル拡散変換器 (MM-DiT) はテキスト駆動型視覚生成において顕著な進歩を遂げている。
マルチモーダルインタラクションを動的に再バランスするパラメータ効率向上手法である textbfTemperature-Adjusted Cross-modal Attention (TACA) を提案する。
本研究は,テキスト・画像拡散モデルにおける意味的忠実度向上における相互注意のバランスの重要性を強調した。
論文 参考訳(メタデータ) (2025-06-09T17:54:04Z) - Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。
我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。
GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文 参考訳(メタデータ) (2025-04-24T17:59:56Z) - D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。
第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。
第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文 参考訳(メタデータ) (2025-03-21T13:58:49Z) - Democratizing Text-to-Image Masked Generative Models with Compact Text-Aware One-Dimensional Tokens [46.361925096761915]
テキスト・アウェア・トランスフォーマーを用いた1次元トケナイザ(TA-TiTok)について紹介する。
TA-TiTokは、離散的または連続的な1次元トークンを利用することができる効率的で強力な画像トークンである。
また,オープンデータに特化して訓練されたMasked Generative Models (MaskGen) のファミリーについても紹介する。
論文 参考訳(メタデータ) (2025-01-13T22:37:17Z) - Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。
しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。
我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文 参考訳(メタデータ) (2024-09-27T19:31:04Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - Object-Attribute Binding in Text-to-Image Generation: Evaluation and Control [58.37323932401379]
現在の拡散モデルは、入力としてテキストプロンプトが与えられたイメージを生成するが、テキストで言及されている属性を画像の正しいオブジェクトに正しく結び付けるのに苦労する。
入力文中の構文的制約により視覚的注意マップを制御できる集中的横断注意(FCA)を提案する。
我々は、T2I生成の大幅な改善、特にいくつかのデータセットに対する属性オブジェクトのバインディングを示す。
論文 参考訳(メタデータ) (2024-04-21T20:26:46Z) - DivCon: Divide and Conquer for Progressive Text-to-Image Generation [0.0]
拡散駆動型テキスト・ツー・イメージ(T2I)生成は顕著な進歩を遂げた。
レイアウトは、大きな言語モデルとレイアウトベースの拡散モデルを橋渡しするためのインターメジウムとして使用される。
本稿では,T2I生成タスクを単純なサブタスクに分解する分割対コンカレント手法を提案する。
論文 参考訳(メタデータ) (2024-03-11T03:24:44Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。