論文の概要: Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding
- arxiv url: http://arxiv.org/abs/2311.01091v2
- Date: Sun, 10 Mar 2024 12:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:28:42.893482
- Title: Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding
- Title(参考訳): パノプティカル・ナラティブ・グラウンディングのための連接画素と対象コンテキストによる句の充実
- Authors: Tianrui Hui, Zihan Ding, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao
Dai, Jizhong Han, Si Liu
- Abstract要約: 汎視的物語基盤は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
本稿では,Phrase-Pixel-Object Transformer Decoder (PPO-TD)を提案する。
提案手法は,高いマージンを有する新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 43.657151728626125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic narrative grounding (PNG) aims to segment things and stuff objects
in an image described by noun phrases of a narrative caption. As a multimodal
task, an essential aspect of PNG is the visual-linguistic interaction between
image and caption. The previous two-stage method aggregates visual contexts
from offline-generated mask proposals to phrase features, which tend to be
noisy and fragmentary. The recent one-stage method aggregates only pixel
contexts from image features to phrase features, which may incur semantic
misalignment due to lacking object priors. To realize more comprehensive
visual-linguistic interaction, we propose to enrich phrases with coupled pixel
and object contexts by designing a Phrase-Pixel-Object Transformer Decoder
(PPO-TD), where both fine-grained part details and coarse-grained entity clues
are aggregated to phrase features. In addition, we also propose a PhraseObject
Contrastive Loss (POCL) to pull closer the matched phrase-object pairs and push
away unmatched ones for aggregating more precise object contexts from more
phrase-relevant object tokens. Extensive experiments on the PNG benchmark show
our method achieves new state-of-the-art performance with large margins.
- Abstract(参考訳): Panoptic narrative grounding (PNG) は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
マルチモーダルタスクとして、PNGの重要な側面は、画像とキャプションの間の視覚言語的相互作用である。
前回の2段階のメソッドは、オフラインで生成されたマスク提案からフレーズ機能まで、視覚的なコンテキストを集約する。
最近のワンステージ手法では、画像特徴からフレーズ特徴までのピクセルコンテキストのみを集約する。
より包括的な視覚・言語的相互作用を実現するため,Phrase-Pixel-Object Transformer Decoder (PPO-TD) を設計することにより,画素とオブジェクトコンテキストを結合したフレーズを充実させることを提案する。
さらに,PhraseObject Contrastive Loss (POCL) を提案して,マッチしたフレーズオブジェクトペアを近づけ,マッチしないものを押し出して,フレーズ関連オブジェクトトークンからより正確なオブジェクトコンテキストを集約する。
PNGベンチマークの大規模な実験により,本手法は高いマージンを有する新しい最先端性能を実現することを示す。
関連論文リスト
- Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding [39.73180294057053]
画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。
また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
論文 参考訳(メタデータ) (2024-09-12T17:48:22Z) - In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - Exploring Phrase-Level Grounding with Text-to-Image Diffusion Model [61.389233691596004]
本稿では,DiffPNGフレームワークについて紹介する。DiffPNGフレームワークは,プロセスを局所化,分節化,分節化の一連のステップに分解することで,分節化のための拡散のアーキテクチャを活用する。
PNGデータセットを用いた実験により, ゼロショットPNGタスク設定において, DiffPNGが強い性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-07-07T13:06:34Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Visually-Aware Context Modeling for News Image Captioning [54.31708859631821]
News Image Captioningは、ニュース記事や画像からキャプションを作成することを目的としている。
より優れた名前埋め込みを学習するための顔命名モジュールを提案する。
私たちはCLIPを使用して、画像にセマンティックに近い文を検索します。
論文 参考訳(メタデータ) (2023-08-16T12:39:39Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - Panoptic-based Object Style-Align for Image-to-Image Translation [2.226472061870956]
本稿では,画像から画像への変換を行うために,パノプティクスに基づくオブジェクトスタイル適応生成ネットワーク(POSA-GAN)を提案する。
提案手法は,異なる競合手法と体系的に比較し,画像の画質とオブジェクト認識性能に大きな改善を加えた。
論文 参考訳(メタデータ) (2021-12-03T14:28:11Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。