論文の概要: Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding
- arxiv url: http://arxiv.org/abs/2311.01091v2
- Date: Sun, 10 Mar 2024 12:59:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:28:42.893482
- Title: Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding
- Title(参考訳): パノプティカル・ナラティブ・グラウンディングのための連接画素と対象コンテキストによる句の充実
- Authors: Tianrui Hui, Zihan Ding, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Jiao
Dai, Jizhong Han, Si Liu
- Abstract要約: 汎視的物語基盤は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
本稿では,Phrase-Pixel-Object Transformer Decoder (PPO-TD)を提案する。
提案手法は,高いマージンを有する新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 43.657151728626125
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic narrative grounding (PNG) aims to segment things and stuff objects
in an image described by noun phrases of a narrative caption. As a multimodal
task, an essential aspect of PNG is the visual-linguistic interaction between
image and caption. The previous two-stage method aggregates visual contexts
from offline-generated mask proposals to phrase features, which tend to be
noisy and fragmentary. The recent one-stage method aggregates only pixel
contexts from image features to phrase features, which may incur semantic
misalignment due to lacking object priors. To realize more comprehensive
visual-linguistic interaction, we propose to enrich phrases with coupled pixel
and object contexts by designing a Phrase-Pixel-Object Transformer Decoder
(PPO-TD), where both fine-grained part details and coarse-grained entity clues
are aggregated to phrase features. In addition, we also propose a PhraseObject
Contrastive Loss (POCL) to pull closer the matched phrase-object pairs and push
away unmatched ones for aggregating more precise object contexts from more
phrase-relevant object tokens. Extensive experiments on the PNG benchmark show
our method achieves new state-of-the-art performance with large margins.
- Abstract(参考訳): Panoptic narrative grounding (PNG) は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
マルチモーダルタスクとして、PNGの重要な側面は、画像とキャプションの間の視覚言語的相互作用である。
前回の2段階のメソッドは、オフラインで生成されたマスク提案からフレーズ機能まで、視覚的なコンテキストを集約する。
最近のワンステージ手法では、画像特徴からフレーズ特徴までのピクセルコンテキストのみを集約する。
より包括的な視覚・言語的相互作用を実現するため,Phrase-Pixel-Object Transformer Decoder (PPO-TD) を設計することにより,画素とオブジェクトコンテキストを結合したフレーズを充実させることを提案する。
さらに,PhraseObject Contrastive Loss (POCL) を提案して,マッチしたフレーズオブジェクトペアを近づけ,マッチしないものを押し出して,フレーズ関連オブジェクトトークンからより正確なオブジェクトコンテキストを集約する。
PNGベンチマークの大規模な実験により,本手法は高いマージンを有する新しい最先端性能を実現することを示す。
関連論文リスト
- Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Facial Expression Translation using Landmark Guided GANs [84.64650795005649]
表情から表現への変換のための強力なランドマークガイド付き生成支援ネットワーク(LandmarkGAN)を提案する。
提案したLandmarkGANは,1つの画像のみを用いて,最先端のアプローチよりも優れた結果が得られる。
論文 参考訳(メタデータ) (2022-09-05T20:52:42Z) - PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding [24.787497472368244]
本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2022-08-11T05:42:12Z) - DALL-E for Detection: Language-driven Context Image Synthesis for Object
Detection [18.276823176045525]
本稿では,大規模なコンテキスト画像の自動生成のための新しいパラダイムを提案する。
我々のアプローチの核心は、文脈の言語記述と言語駆動画像生成の相互作用を利用することである。
本研究では,4つのオブジェクト検出データセットに対する事前の文脈画像生成手法に対するアプローチの利点を実証する。
論文 参考訳(メタデータ) (2022-06-20T06:43:17Z) - Panoptic-based Object Style-Align for Image-to-Image Translation [2.226472061870956]
本稿では,画像から画像への変換を行うために,パノプティクスに基づくオブジェクトスタイル適応生成ネットワーク(POSA-GAN)を提案する。
提案手法は,異なる競合手法と体系的に比較し,画像の画質とオブジェクト認識性能に大きな改善を加えた。
論文 参考訳(メタデータ) (2021-12-03T14:28:11Z) - MOC-GAN: Mixing Objects and Captions to Generate Realistic Images [21.240099965546637]
より合理的な設定を導入し、オブジェクトやキャプションからリアルなイメージを生成します。
この設定では、オブジェクトはターゲットイメージにおける重要な役割を明示的に定義し、キャプションは、そのリッチな属性とコネクションを暗黙的に記述する。
2つのモードの入力を混合して現実的な画像を生成するMOC-GANを提案する。
論文 参考訳(メタデータ) (2021-06-06T14:04:07Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Dense Relational Image Captioning via Multi-task Triple-Stream Networks [95.0476489266988]
視覚的な場面におけるオブジェクト間の情報に関して,キャプションを生成することを目的とした新しいタスクである。
このフレームワークは、多様性と情報の量の両方において有利であり、包括的なイメージ理解につながる。
論文 参考訳(メタデータ) (2020-10-08T09:17:55Z) - Learning Object Detection from Captions via Textual Scene Attributes [70.90708863394902]
キャプションには、オブジェクトの属性やそれらの関係など、画像に関するよりリッチな情報が含まれている、と我々は主張する。
本稿では,この「テキストシーングラフ」の属性を用いて物体検知器を訓練する手法を提案する。
得られたモデルが、いくつかの挑戦的なオブジェクト検出データセットに対して、最先端の結果を達成することを実証的に実証した。
論文 参考訳(メタデータ) (2020-09-30T10:59:20Z) - Expressing Objects just like Words: Recurrent Visual Embedding for
Image-Text Matching [102.62343739435289]
既存の画像テキストマッチングアプローチは、テキストと画像の各独立オブジェクト間の親和性をキャプチャして集約することにより、画像テキストペアの類似性を推測する。
本稿では,リカレントニューラルネットワーク(RNN)を用いて画像と文を対称に処理するDual Path Recurrent Neural Network (DP-RNN)を提案する。
我々のモデルはFlickr30Kデータセットの最先端性能とMS-COCOデータセットの競合性能を達成する。
論文 参考訳(メタデータ) (2020-02-20T00:51:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。