論文の概要: PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding
- arxiv url: http://arxiv.org/abs/2208.05647v1
- Date: Thu, 11 Aug 2022 05:42:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-12 13:37:04.976327
- Title: PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative
Grounding
- Title(参考訳): PPMN:ワンステージパノプティブ・ナラティブ・グラウンディングのためのPixel-Phrase Matching Network
- Authors: Zihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei,
Xiaolin Wei, Si Liu
- Abstract要約: 本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。
提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 24.787497472368244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Panoptic Narrative Grounding (PNG) is an emerging task whose goal is to
segment visual objects of things and stuff categories described by dense
narrative captions of a still image. The previous two-stage approach first
extracts segmentation region proposals by an off-the-shelf panoptic
segmentation model, then conducts coarse region-phrase matching to ground the
candidate regions for each noun phrase. However, the two-stage pipeline usually
suffers from the performance limitation of low-quality proposals in the first
stage and the loss of spatial details caused by region feature pooling, as well
as complicated strategies designed for things and stuff categories separately.
To alleviate these drawbacks, we propose a one-stage end-to-end Pixel-Phrase
Matching Network (PPMN), which directly matches each phrase to its
corresponding pixels instead of region proposals and outputs panoptic
segmentation by simple combination. Thus, our model can exploit sufficient and
finer cross-modal semantic correspondence from the supervision of densely
annotated pixel-phrase pairs rather than sparse region-phrase pairs. In
addition, we also propose a Language-Compatible Pixel Aggregation (LCPA) module
to further enhance the discriminative ability of phrase features through
multi-round refinement, which selects the most compatible pixels for each
phrase to adaptively aggregate the corresponding visual context. Extensive
experiments show that our method achieves new state-of-the-art performance on
the PNG benchmark with 4.0 absolute Average Recall gains.
- Abstract(参考訳): Panoptic Narrative Grounding (PNG) は、静止画の濃密なナラティブキャプションによって記述された物やものの視覚的対象を分割することを目的とする新しいタスクである。
従来の2段階のアプローチでは,まずオフザシェル・パノプティクス・セグメンテーションモデルを用いてセグメンテーション領域の提案を抽出し,次に粗い領域フレーズマッチングを行い,各名詞句の候補領域を抽出する。
しかし、2段階のパイプラインは通常、第1段階における低品質の提案のパフォーマンス制限と、地域特徴プーリングによる空間的詳細の喪失と、物やもののカテゴリを別々に設計した複雑な戦略に苦しむ。
これらの欠点を緩和するために,各句を領域提案ではなく,対応する画素と直接マッチングし,簡単な組み合わせでパンオプティカルセグメンテーションを出力する1段階のエンド・ツー・エンドのピクセル・フレーズマッチングネットワーク(ppmn)を提案する。
そこで本モデルでは,スパース領域-フレーズ対ではなく,高密度に注釈付けされた画素-フレーズ対の監督から,十分かつ詳細な相互意味対応を利用できる。
さらに,言語対応型画素集合 (LCPA) モジュールも提案し,各フレーズに最も互換性のある画素を選択し,対応する視覚的コンテキストを適応的に集約することで,フレーズ特徴の識別能力を向上する。
実験の結果,提案手法はPNGベンチマークで4.0絶対平均リコールゲインを達成できた。
関連論文リスト
- GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene
Understanding [105.69002990314864]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。
本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文 参考訳(メタデータ) (2023-11-20T15:59:41Z) - Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic
Narrative Grounding [43.657151728626125]
汎視的物語基盤は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。
本稿では,Phrase-Pixel-Object Transformer Decoder (PPO-TD)を提案する。
提案手法は,高いマージンを有する新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2023-11-02T08:55:28Z) - Context Does Matter: End-to-end Panoptic Narrative Grounding with
Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。
Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。
DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文 参考訳(メタデータ) (2023-10-25T13:12:39Z) - Associating Spatially-Consistent Grouping with Text-supervised Semantic
Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。
部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。
59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-04-03T16:24:39Z) - Towards Real-Time Panoptic Narrative Grounding by an End-to-End
Grounding Network [39.64953170583401]
Panoptic Narrative Grounding (PNG)は、新たなクロスモーダルグラウンドタスクである。
我々は、EPNG(End-to-End Panoptic Narrative Grounding Network)と呼ばれるリアルタイムPNGのためのワンステージネットワークを提案する。
提案手法は最大9.4%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-01-09T03:57:14Z) - Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。
提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文 参考訳(メタデータ) (2022-05-10T07:52:24Z) - Semi-supervised Semantic Segmentation with Directional Context-aware
Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。
好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。
我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文 参考訳(メタデータ) (2021-06-27T03:42:40Z) - SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive
Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。
先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。
このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文 参考訳(メタデータ) (2021-04-19T11:21:47Z) - Pixel-Level Cycle Association: A New Perspective for Domain Adaptive
Semantic Segmentation [169.82760468633236]
本稿では,ソースとターゲットの画素ペア間の画素レベルサイクルの関連性を構築することを提案する。
我々の手法は1段階のエンドツーエンドで訓練でき、追加のパラメータは導入しない。
論文 参考訳(メタデータ) (2020-10-31T00:11:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。