論文の概要: PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models
- arxiv url: http://arxiv.org/abs/2505.03203v1
- Date: Tue, 06 May 2025 05:38:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 18:50:11.225843
- Title: PiCo: Enhancing Text-Image Alignment with Improved Noise Selection and Precise Mask Control in Diffusion Models
- Title(参考訳): PiCo:拡散モデルにおけるノイズ選択と高精度マスク制御の改善によるテキスト画像アライメントの強化
- Authors: Chang Xie, Chenyi Zhuang, Pan Gao,
- Abstract要約: これら2つの要因に対処するための2つの重要な要素を持つ新しいトレーニング不要なアプローチであるPiCo(Pick-and-Control)を提案する。
まず、ランダムノイズの品質を評価し、対象のテキストに適したノイズかどうかを判定するノイズ選択モジュールを開発する。
第2に,画素レベルのマスクを生成するための参照マスクモジュールを導入し,横断アテンションマップを正確に調整する。
- 参考スコア(独自算出の注目度): 10.767325147254574
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advanced diffusion models have made notable progress in text-to-image compositional generation. However, it is still a challenge for existing models to achieve text-image alignment when confronted with complex text prompts. In this work, we highlight two factors that affect this alignment: the quality of the randomly initialized noise and the reliability of the generated controlling mask. We then propose PiCo (Pick-and-Control), a novel training-free approach with two key components to tackle these two factors. First, we develop a noise selection module to assess the quality of the random noise and determine whether the noise is suitable for the target text. A fast sampling strategy is utilized to ensure efficiency in the noise selection stage. Second, we introduce a referring mask module to generate pixel-level masks and to precisely modulate the cross-attention maps. The referring mask is applied to the standard diffusion process to guide the reasonable interaction between text and image features. Extensive experiments have been conducted to verify the effectiveness of PiCo in liberating users from the tedious process of random generation and in enhancing the text-image alignment for diverse text descriptions.
- Abstract(参考訳): 高度な拡散モデルでは、テキストから画像への合成生成が顕著に進歩している。
しかし、複雑なテキストプロンプトに直面した場合、既存のモデルがテキストイメージアライメントを実現することは依然として課題である。
本研究では,このアライメントに影響を与える2つの要因として,ランダムに初期化ノイズの品質と,生成した制御マスクの信頼性について述べる。
次に、これらの2つの要因に対処するための2つの重要な要素を持つ、新しいトレーニング不要のアプローチであるPiCo(Pick-and-Control)を提案する。
まず、ランダムノイズの品質を評価し、対象のテキストに適したノイズかどうかを判定するノイズ選択モジュールを開発する。
ノイズ選択段階における効率を確保するために、高速サンプリング戦略を利用する。
第2に,画素レベルのマスクを生成するための参照マスクモジュールを導入し,横断アテンションマップを正確に調整する。
参照マスクを標準拡散プロセスに適用し、テキストと画像の特徴間の合理的な相互作用を導く。
ランダム生成の面倒なプロセスからユーザを解放するPiCoの有効性を検証し、多様なテキスト記述に対するテキストイメージアライメントを強化するために、大規模な実験が行われた。
関連論文リスト
- The Silent Assistant: NoiseQuery as Implicit Guidance for Goal-Driven Image Generation [31.599902235859687]
本稿では,テキストプロンプトなどの明示的なユーザ定義入力を補完する暗黙のガイダンスとして,一致したガウスノイズを活用することを提案する。
NoiseQueryはきめ細かい制御を可能にし、ハイレベルなセマンティクスや低レベルなビジュアル属性よりもパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2024-12-06T14:59:00Z) - AMNS: Attention-Weighted Selective Mask and Noise Label Suppression for Text-to-Image Person Retrieval [3.591122855617648]
ノイズ対応(NC)問題は画像品質の低下とラベルの誤りによる。
ランダムマスキングの強化は、必然的に重要なセマンティックコンテンツを捨てる可能性がある。
双方向類似分布マッチング(BSDM)損失は、正のペアから効果的に学習することを可能にする。
重み調整焦点(WAF)の損失により、モデルのハードサンプル処理能力が向上する。
論文 参考訳(メタデータ) (2024-09-10T10:08:01Z) - Class-Aware Mask-Guided Feature Refinement for Scene Text Recognition [56.968108142307976]
CAM(Class-Aware Mask-Guided Feature refinement)と呼ばれる新しい手法を提案する。
本手法では,背景およびテキストスタイルのノイズを抑制するために,標準クラス対応グリフマスクを導入している。
標準マスク特徴とテキスト特徴とのアライメントを強化することにより、モジュールはより効果的な融合を保証する。
論文 参考訳(メタデータ) (2024-02-21T09:22:45Z) - Open-Vocabulary Segmentation with Unpaired Mask-Text Supervision [87.15580604023555]
Unpair-Segは、弱制御されたオープン語彙セグメンテーションフレームワークである。
未ペア画像マスクと画像テキストペアから学習し、独立して効率的に収集することができる。
ADE-847とPASCAL Context-459データセットで14.6%と19.5%のmIoUを達成した。
論文 参考訳(メタデータ) (2024-02-14T06:01:44Z) - MaskDiffusion: Boosting Text-to-Image Consistency with Conditional Mask [84.84034179136458]
テキスト・イメージのミスマッチ問題に繋がる重要な要因は、モダリティ間の関係学習の不十分さである。
本稿では,注目マップと迅速な埋め込みを条件とした適応マスクを提案し,画像特徴に対する各テキストトークンの寄与度を動的に調整する。
この手法はMaskDiffusionと呼ばれ、トレーニング不要で、一般的な事前学習拡散モデルに対してホットプラグ可能である。
論文 参考訳(メタデータ) (2023-09-08T15:53:37Z) - Text-Conditioned Sampling Framework for Text-to-Image Generation with
Masked Generative Models [52.29800567587504]
そこで本研究では,テキスト情報を用いた局所的監視により最適なトークンを選択するための,学習可能なサンプリングモデルであるテキスト定義トークン選択(TCTS)を提案する。
TCTSは画像の品質だけでなく、生成された画像と与えられたテキストのセマンティックアライメントも改善する。
我々は、周波数適応サンプリング(FAS)と様々な生成タスクを組み合わせたTCTSの有効性を検証し、画像テキストのアライメントや画質において、ベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2023-04-04T03:52:49Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Masked Lip-Sync Prediction by Audio-Visual Contextual Exploitation in
Transformers [91.00397473678088]
従来の研究では、任意の目標の音声条件に対して、口唇同期音声を正確に生成する方法が検討されている。
本稿では,映像品質の正確なリップ同期を実現するAV-CAT(Audio-Visual Context-Aware Transformer)フレームワークを提案する。
我々のモデルは任意の被験者に対して高忠実度リップ同期結果を生成することができる。
論文 参考訳(メタデータ) (2022-12-09T16:32:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。