Fugu-MT 論文翻訳(概要): PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

論文の概要: PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding

arxiv url: http://arxiv.org/abs/2208.05647v1
Date: Thu, 11 Aug 2022 05:42:12 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-12 13:37:04.976327
Title: PPMN: Pixel-Phrase Matching Network for One-Stage Panoptic Narrative Grounding
Title（参考訳）: PPMN:ワンステージパノプティブ・ナラティブ・グラウンディングのためのPixel-Phrase Matching Network
Authors: Zihan Ding, Zi-han Ding, Tianrui Hui, Junshi Huang, Xiaoming Wei, Xiaolin Wei, Si Liu
Abstract要約: 本稿では,各フレーズと対応する画素を直接マッチングする一段階のPixel-Phrase Matching Network (PPMN)を提案する。提案手法は,PNGの4.0絶対平均リコールゲインを用いて,新しい最先端性能を実現する。
参考スコア（独自算出の注目度）: 24.787497472368244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Panoptic Narrative Grounding (PNG) is an emerging task whose goal is to segment visual objects of things and stuff categories described by dense narrative captions of a still image. The previous two-stage approach first extracts segmentation region proposals by an off-the-shelf panoptic segmentation model, then conducts coarse region-phrase matching to ground the candidate regions for each noun phrase. However, the two-stage pipeline usually suffers from the performance limitation of low-quality proposals in the first stage and the loss of spatial details caused by region feature pooling, as well as complicated strategies designed for things and stuff categories separately. To alleviate these drawbacks, we propose a one-stage end-to-end Pixel-Phrase Matching Network (PPMN), which directly matches each phrase to its corresponding pixels instead of region proposals and outputs panoptic segmentation by simple combination. Thus, our model can exploit sufficient and finer cross-modal semantic correspondence from the supervision of densely annotated pixel-phrase pairs rather than sparse region-phrase pairs. In addition, we also propose a Language-Compatible Pixel Aggregation (LCPA) module to further enhance the discriminative ability of phrase features through multi-round refinement, which selects the most compatible pixels for each phrase to adaptively aggregate the corresponding visual context. Extensive experiments show that our method achieves new state-of-the-art performance on the PNG benchmark with 4.0 absolute Average Recall gains.
Abstract（参考訳）: Panoptic Narrative Grounding (PNG) は、静止画の濃密なナラティブキャプションによって記述された物やものの視覚的対象を分割することを目的とする新しいタスクである。従来の2段階のアプローチでは,まずオフザシェル・パノプティクス・セグメンテーションモデルを用いてセグメンテーション領域の提案を抽出し,次に粗い領域フレーズマッチングを行い,各名詞句の候補領域を抽出する。しかし、2段階のパイプラインは通常、第1段階における低品質の提案のパフォーマンス制限と、地域特徴プーリングによる空間的詳細の喪失と、物やもののカテゴリを別々に設計した複雑な戦略に苦しむ。これらの欠点を緩和するために,各句を領域提案ではなく,対応する画素と直接マッチングし,簡単な組み合わせでパンオプティカルセグメンテーションを出力する1段階のエンド・ツー・エンドのピクセル・フレーズマッチングネットワーク(ppmn)を提案する。そこで本モデルでは,スパース領域-フレーズ対ではなく,高密度に注釈付けされた画素-フレーズ対の監督から,十分かつ詳細な相互意味対応を利用できる。さらに,言語対応型画素集合 (LCPA) モジュールも提案し,各フレーズに最も互換性のある画素を選択し,対応する視覚的コンテキストを適応的に集約することで,フレーズ特徴の識別能力を向上する。実験の結果,提案手法はPNGベンチマークで4.0絶対平均リコールゲインを達成できた。

関連論文リスト

FGAseg: Fine-Grained Pixel-Text Alignment for Open-Vocabulary Semantic Segmentation [63.31007867379312]
Open-vocabulary segmentationは、テキストベースの記述に基づいて特定の領域やオブジェクトを識別し、分割することを目的としている。一般的な解決策は、CLIPのような強力な視覚言語モデル(VLM)を活用して、視覚とテキスト情報のギャップを埋めることである。対照的に、セグメンテーションタスクは細かいピクセルレベルのアライメントと詳細なカテゴリ境界情報を必要とする。細粒度画素テキストアライメントとカテゴリ境界補間のためのモデルFGAsegを提案する。
論文参考訳（メタデータ） (2025-01-01T15:47:04Z)
Dynamic Prompting of Frozen Text-to-Image Diffusion Models for Panoptic Narrative Grounding [39.73180294057053]
画像特徴のあるフレーズプロンプトを動的に更新するために,Diffusion UNet内の抽出帰納的フレーズアダプタ(EIPA)バイパスを提案する。また,マルチレベル相互集約(MLMA)モジュールを設計し,複数レベル画像とフレーズ特徴を相互に融合してセグメンテーションの洗練を図る。
論文参考訳（メタデータ） (2024-09-12T17:48:22Z)
MROVSeg: Breaking the Resolution Curse of Vision-Language Models in Open-Vocabulary Semantic Segmentation [33.67313662538398]
オープン語彙セマンティックセマンティックセグメンテーションのためのマルチレゾリューション・トレーニング・フレームワークを提案する。 MROVSegはスライディングウィンドウを使用して高解像度の入力を均一なパッチにスライスし、それぞれがよく訓練されたイメージエンコーダの入力サイズと一致する。オープン語彙セマンティックセグメンテーションベンチマークにおけるMROVSegの優位性を実証する。
論文参考訳（メタデータ） (2024-08-27T04:45:53Z)
Fine-grained Background Representation for Weakly Supervised Semantic Segmentation [35.346567242839065]
本稿では,多様なBGセマンティクスを発見し,表現するために,FBR法を提案する。そこで本研究では,FG陰性線を抽出し,地中コントラスト学習を効果的に行うためのアクティブサンプリング戦略を提案する。本手法は,Pascal Voc および MS COCO テストセットにおいて,73.2 mIoU と 45.6 mIoU のセグメンテーション結果を得る。
論文参考訳（メタデータ） (2024-06-22T06:45:25Z)
GP-NeRF: Generalized Perception NeRF for Context-Aware 3D Scene Understanding [101.32590239809113]
Generalized Perception NeRF (GP-NeRF) は、広く使われているセグメンテーションモデルとNeRFを統一されたフレームワークで相互に動作させる新しいパイプラインである。本稿では,セマンティック蒸留損失(Semantic Distill Loss)とDepth-Guided Semantic Distill Loss(Depth-Guided Semantic Distill Loss)という2つの自己蒸留機構を提案する。
論文参考訳（メタデータ） (2023-11-20T15:59:41Z)
Enriching Phrases with Coupled Pixel and Object Contexts for Panoptic Narrative Grounding [43.657151728626125]
汎視的物語基盤は、物語キャプションの名詞句で表現された画像に物や物を分割することを目的としている。本稿では,Phrase-Pixel-Object Transformer Decoder (PPO-TD)を提案する。提案手法は,高いマージンを有する新しい最先端性能を実現する。
論文参考訳（メタデータ） (2023-11-02T08:55:28Z)
Context Does Matter: End-to-end Panoptic Narrative Grounding with Deformable Attention Refined Matching Network [25.511804582983977]
パノラマ・ナララティブ・グラウンディング(PNG)は、高密度なナラティブキャプションに基づいて、画像中の視覚オブジェクトを分割することを目的としている。 Deformable Attention Refined Matching Network (DRMN) と呼ばれる新しい学習フレームワークを提案する。 DRMNは、トップ$k$で最も類似したピクセルの特徴表現を更新した後、変形可能なアテンションネットワークで画素を反復的に再エンコードする。
論文参考訳（メタデータ） (2023-10-25T13:12:39Z)
Diffusion Models for Open-Vocabulary Segmentation [79.02153797465324]
OVDiffは、教師なしオープン語彙セグメンテーションに生成テキストから画像への拡散モデルを利用する新しい手法である。トレーニング済みのコンポーネントのみに依存し、トレーニングなしで合成セグメンタを直接出力する。
論文参考訳（メタデータ） (2023-06-15T17:51:28Z)
Associating Spatially-Consistent Grouping with Text-supervised Semantic Segmentation [117.36746226803993]
テキスト教師付きセマンティックセグメンテーションを用いた自己教師付き空間一貫性グループ化を提案する。部分的なグループ化結果を考えると、さらに画像レベルから領域レベルへのテキスト教師付きモデルを適用する。 59.2% mIoU と 32.4% mIoU を Pascal VOC および Pascal Context ベンチマークで達成した。
論文参考訳（メタデータ） (2023-04-03T16:24:39Z)
Weakly-supervised segmentation of referring expressions [81.73850439141374]
テキスト基底セマンティックSEGmentationは、ピクセルレベルのアノテーションなしで画像レベルの参照式から直接セグメンテーションマスクを学習する。提案手法は,PhraseCutおよびRefCOCOデータセット上での表現セグメンテーションを弱教師付きで参照する際の有望な結果を示す。
論文参考訳（メタデータ） (2022-05-10T07:52:24Z)
Semi-supervised Semantic Segmentation with Directional Context-aware Consistency [66.49995436833667]
我々は、ラベル付きデータの小さなセットに、全くラベル付けされていない画像のより大きなコレクションを提供する半教師付きセグメンテーション問題に焦点をあてる。好ましいハイレベル表現は、自己認識を失わずにコンテキスト情報をキャプチャするべきである。我々は,DCロス(Directional Contrastive Loss)を画素対ピクセルの整合性を達成するために提示する。
論文参考訳（メタデータ） (2021-06-27T03:42:40Z)
SCNet: Enhancing Few-Shot Semantic Segmentation by Self-Contrastive Background Prototypes [56.387647750094466]
Few-shot セマンティックセマンティックセマンティクスは,クエリイメージ内の新規クラスオブジェクトを,アノテーション付きの例で分割することを目的としている。先進的なソリューションのほとんどは、各ピクセルを学習した前景のプロトタイプに合わせることでセグメンテーションを行うメトリクス学習フレームワークを利用している。このフレームワークは、前景プロトタイプのみとのサンプルペアの不完全な構築のために偏った分類に苦しんでいます。
論文参考訳（メタデータ） (2021-04-19T11:21:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。