論文の概要: Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2407.05352v1
- Date: Sun, 7 Jul 2024 13:06:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-09 20:07:19.751869
- Title: Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model
- Title(参考訳): テキスト-画像拡散モデルによるフレーズレベルグラウンドの探索
- Authors: Danni Yang, Ruohan Dong, Jiayi Ji, Yiwei Ma, Haowei Wang, Xiaoshuai Sun, Rongrong Ji,
- Abstract要約: 本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
- 参考スコア(独自算出の注目度): 61.389233691596004
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recently, diffusion models have increasingly demonstrated their capabilities in vision understanding. By leveraging prompt-based learning to construct sentences, these models have shown proficiency in classification and visual grounding tasks. However, existing approaches primarily showcase their ability to perform sentence-level localization, leaving the potential for leveraging contextual information for phrase-level understanding largely unexplored. In this paper, we utilize Panoptic Narrative Grounding (PNG) as a proxy task to investigate this capability further. PNG aims to segment object instances mentioned by multiple noun phrases within a given narrative text. Specifically, we introduce the DiffPNG framework, a straightforward yet effective approach that fully capitalizes on the diffusion's architecture for segmentation by decomposing the process into a sequence of localization, segmentation, and refinement steps. The framework initially identifies anchor points using cross-attention mechanisms and subsequently performs segmentation with self-attention to achieve zero-shot PNG. Moreover, we introduce a refinement module based on SAM to enhance the quality of the segmentation masks. Our extensive experiments on the PNG dataset demonstrate that DiffPNG achieves strong performance in the zero-shot PNG task setting, conclusively proving the diffusion model's capability for context-aware, phrase-level understanding. Source code is available at \url{https://github.com/nini0919/DiffPNG}.
- Abstract(参考訳): 近年,拡散モデルによる視覚理解能力の実証が進んでいる。
素早い学習を活用して文を構成することで、これらのモデルは分類と視覚的接地作業の習熟度を示した。
しかし、既存のアプローチは主に文レベルのローカライズを行う能力を示しており、句レベルの理解に文脈情報を活用する可能性はほとんど探索されていない。
本稿では,Panoptic Narrative Grounding (PNG) をプロキシタスクとして利用して,この能力をさらに検討する。
PNGは、複数の名詞句で言及されているオブジェクトのインスタンスを、与えられた物語テキストに分割することを目的としている。
具体的には、DiffPNGフレームワークを導入する。DiffPNGフレームワークは、プロセスをローカライゼーション、セグメンテーション、精細化の一連のステップに分解することで、拡散のアーキテクチャーを完全に活用する。
このフレームワークは最初、クロスアテンション機構を用いてアンカーポイントを特定し、その後、ゼロショットPNGを達成するために自己アテンションでセグメンテーションを行う。
さらに,セグメンテーションマスクの品質を高めるため,SAMに基づく改良モジュールを導入する。
PNGデータセットに関する広範な実験により、DiffPNGはゼロショットのPNGタスク設定において強い性能を達成し、文脈認識・フレーズレベル理解のための拡散モデルの能力を決定的に証明した。
ソースコードは \url{https://github.com/nini0919/DiffPNG} で入手できる。
関連論文リスト
- Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding [39.73180294057053]
画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。
また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
論文 参考訳(メタデータ) (2024-09-12T17:48:22Z) - Leveraging Open-Vocabulary Diffusion to Camouflaged Instance
Segmentation [59.78520153338878]
テキスト・ツー・イメージ拡散技術は、テキスト記述から高品質な画像を生成する素晴らしい能力を示している。
そこで本研究では,オープン語彙を応用した最先端拡散モデルを用いて,多スケールのテキスト・視覚的特徴を学習する手法を提案する。
論文 参考訳(メタデータ) (2023-12-29T07:59:07Z) - CPSeg: Finer-grained Image Semantic Segmentation via Chain-of-Thought
Language Prompting [8.12405696290333]
CPSegは、新しいChain-of-Thoughtプロセスを統合することで、画像セグメンテーションのパフォーマンスを向上させるように設計されたフレームワークである。
我々は、画像、セマンティックマスク、および対応するテキスト情報を含む新しい視覚言語データセット、FloodPromptを提案する。
論文 参考訳(メタデータ) (2023-10-24T13:32:32Z) - Holistic Prototype Attention Network for Few-Shot VOS [74.25124421163542]
FSVOS(Few-shot Video Object segmentation)は、少数のサポートイメージに頼って、目に見えないクラスの動的オブジェクトをセグメントすることを目的としている。
本稿では,FSVOS を前進させるための総合プロトタイプアテンションネットワーク (HPAN) を提案する。
論文 参考訳(メタデータ) (2023-07-16T03:48:57Z) - Prompting Diffusion Representations for Cross-Domain Semantic
Segmentation [101.04326113360342]
拡散事前学習は、セマンティックセグメンテーションのための並外れた領域一般化結果を達成する。
本研究では,シーンプロンプトとプロンプトランダム化戦略を導入し,セグメンテーションヘッドを訓練する際に,ドメイン不変情報をさらに混乱させる。
論文 参考訳(メタデータ) (2023-07-05T09:28:25Z) - Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。
トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文 参考訳(メタデータ) (2023-06-15T17:51:28Z) - Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network [39.64953170583401]
Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。
我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。
提案手法は最大9.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-01-09T03:57:14Z) - Group-Wise Semantic Mining for Weakly Supervised Semantic Segmentation [49.90178055521207]
この研究は、画像レベルのアノテーションとピクセルレベルのセグメンテーションのギャップを埋めることを目標に、弱い監督されたセマンティックセグメンテーション(WSSS)に対処する。
画像群における意味的依存関係を明示的にモデル化し,より信頼性の高い擬似的基盤構造を推定する,新たなグループ学習タスクとしてWSSSを定式化する。
特に、入力画像がグラフノードとして表現されるグループ単位のセマンティックマイニングのためのグラフニューラルネットワーク(GNN)を考案する。
論文 参考訳(メタデータ) (2020-12-09T12:40:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。