論文の概要: Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding
- arxiv url: http://arxiv.org/abs/2409.08251v1
- Date: Thu, 12 Sep 2024 17:48:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 15:35:07.460339
- Title: Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding
- Title(参考訳): パン光学的ナラティブグラウンドリングのための凍結型テキスト・画像拡散モデルの動的プロンプト
- Authors: Hongyu Li, Tianrui Hui, Zihan Ding, Jing Zhang, Bin Ma, Xiaoming Wei, Jizhong Han, Si Liu,
- Abstract要約: 画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。
また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
- 参考スコア(独自算出の注目度): 39.73180294057053
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Panoptic narrative grounding (PNG), whose core target is fine-grained image-text alignment, requires a panoptic segmentation of referred objects given a narrative caption. Previous discriminative methods achieve only weak or coarse-grained alignment by panoptic segmentation pretraining or CLIP model adaptation. Given the recent progress of text-to-image Diffusion models, several works have shown their capability to achieve fine-grained image-text alignment through cross-attention maps and improved general segmentation performance. However, the direct use of phrase features as static prompts to apply frozen Diffusion models to the PNG task still suffers from a large task gap and insufficient vision-language interaction, yielding inferior performance. Therefore, we propose an Extractive-Injective Phrase Adapter (EIPA) bypass within the Diffusion UNet to dynamically update phrase prompts with image features and inject the multimodal cues back, which leverages the fine-grained image-text alignment capability of Diffusion models more sufficiently. In addition, we also design a Multi-Level Mutual Aggregation (MLMA) module to reciprocally fuse multi-level image and phrase features for segmentation refinement. Extensive experiments on the PNG benchmark show that our method achieves new state-of-the-art performance.
- Abstract(参考訳): 中心となるターゲットがきめ細かい画像テキストアライメントであるPNG(Panoptic narrative grounding)は、物語キャプションを付与された参照対象のパノプティックセグメンテーションを必要とする。
従来の識別法は、汎視的セグメンテーション事前訓練やCLIPモデル適応によって、弱いあるいは粗いアライメントしか達成していない。
近年のテキスト・ツー・イメージ・ディフュージョン・モデルの進歩を踏まえ、クロスアテンション・マップによる微粒な画像・テキストアライメントの実現と、一般的なセグメンテーション性能の向上が示されている。
しかし、PNGタスクに凍結拡散モデルを適用するための静的なプロンプトとしてフレーズの直接的使用は、大きなタスクギャップと視覚言語間相互作用の不足に悩まされ、性能が劣る。
そこで我々は,Diffusion UNet内の抽出帰納句適応器 (EIPA) をバイパスして,画像特徴を持つフレーズプロンプトを動的に更新し,マルチモーダルキューをインジェクトし,ディフュージョンモデルのより詳細な画像テキストアライメント機能を活用する。
さらに,複数レベルの画像とフレーズを相互に融合するMLMAモジュールを設計し,セグメンテーションの洗練を図る。
PNGベンチマークの大規模な実験により,本手法が新たな最先端性能を実現することが示された。
関連論文リスト
- InvSeg: Test-Time Prompt Inversion for Semantic Segmentation [33.60580908728705]
InvSegはセマンティックセグメンテーションのためのテストタイムプロンプトインバージョンメソッドである。
コントラストソフトクラスタリングを導入し,マスクを画像の構造情報と整合させる。
InvSegはコンテキストリッチなテキストプロンプトを埋め込み空間で学習し、モダリティ間の正確なセマンティックアライメントを実現する。
論文 参考訳(メタデータ) (2024-10-15T10:20:31Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Open-Vocabulary Attention Maps with Token Optimization for Semantic Segmentation in Diffusion Models [1.6450779686641077]
OVAM(Open-Vocabulary Attention Maps)は,テキスト・画像拡散モデルのためのトレーニング不要な手法である。
既存の安定拡散拡張の中でこれらのトークンを評価する。
論文 参考訳(メタデータ) (2024-03-21T10:56:12Z) - Energy-Based Cross Attention for Bayesian Context Update in
Text-to-Image Diffusion Models [62.603753097900466]
本稿では,文脈ベクトルの後部をモデル化し,適応的文脈制御のための新しいエネルギーベースモデル(EBM)を提案する。
具体的には、まず遅延画像表現とテキスト埋め込みのESMをデノナイズドオートエンコーダの各クロスアテンション層に定式化する。
我々の潜在ESMは、異なるコンテキストからの相互注意出力の線形結合として、ゼロショット合成を可能としています。
論文 参考訳(メタデータ) (2023-06-16T14:30:41Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Directed Diffusion: Direct Control of Object Placement through Attention
Guidance [15.275386705641266]
テキスト誘導拡散モデルは、所望の画像内容を記述する短いテキストプロンプトのみを与えられた、事実上無限の多様な画像を生成することができる。
これらのモデルはしばしば、特定の位置関係における文字のようないくつかの重要なオブジェクトを含むシーンを構成するのに苦労する。
この作業では、必要な方向性を提供するために、特に簡単なアプローチを取ります。
論文 参考訳(メタデータ) (2023-02-25T20:48:15Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。