論文の概要: Collaborative Position Reasoning Network for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2401.11775v1
- Date: Mon, 22 Jan 2024 09:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 14:48:34.211085
- Title: Collaborative Position Reasoning Network for Referring Image
Segmentation
- Title(参考訳): 画像分割参照のための協調的位置推論ネットワーク
- Authors: Jianjian Cao and Beiya Dai and Yulin Li and Xiameng Qin and Jingdong
Wang
- Abstract要約: 本稿では,エンティティローカライゼーションを明示的にモデル化する新しい手法を提案する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
- 参考スコア(独自算出の注目度): 30.414910144177757
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Given an image and a natural language expression as input, the goal of
referring image segmentation is to segment the foreground masks of the entities
referred by the expression. Existing methods mainly focus on interactive
learning between vision and language to enhance the multi-modal representations
for global context reasoning. However, predicting directly in pixel-level space
can lead to collapsed positioning and poor segmentation results. Its main
challenge lies in how to explicitly model entity localization, especially for
non-salient entities. In this paper, we tackle this problem by executing a
Collaborative Position Reasoning Network (CPRN) via the proposed novel
Row-and-Column interactive (RoCo) and Guided Holistic interactive (Holi)
modules. Specifically, RoCo aggregates the visual features into the row- and
column-wise features corresponding two directional axes respectively. It offers
a fine-grained matching behavior that perceives the associations between the
linguistic features and two decoupled visual features to perform position
reasoning over a hierarchical space. Holi integrates features of the two
modalities by a cross-modal attention mechanism, which suppresses the
irrelevant redundancy under the guide of positioning information from RoCo.
Thus, with the incorporation of RoCo and Holi modules, CPRN captures the visual
details of position reasoning so that the model can achieve more accurate
segmentation. To our knowledge, this is the first work that explicitly focuses
on position reasoning modeling. We also validate the proposed method on three
evaluation datasets. It consistently outperforms existing state-of-the-art
methods.
- Abstract(参考訳): 入力として画像と自然言語表現が与えられた場合、画像セグメンテーションの目標は、表現によって参照されるエンティティの前景マスクをセグメンテーションすることである。
既存の手法は主に視覚と言語間の対話的な学習に焦点を当て、グローバルコンテキスト推論のためのマルチモーダル表現を強化している。
しかし、ピクセルレベルの空間で直接予測することは、崩壊した位置決めやセグメンテーション結果に繋がる可能性がある。
その主な課題は、エンティティのローカライゼーションを明示的にモデル化する方法である。
本稿では,提案するRow-and-Column Interactive (RoCo) と Guided Holistic Interactive (Holi) モジュールを用いて協調的位置推論ネットワーク (CPRN) を実行することでこの問題に対処する。
具体的には、rocoは視覚的な特徴を2つの方向軸に対応する行と列ごとに集約する。
言語的特徴と2つの分離された視覚的特徴の関連を知覚し、階層的な空間上の位置推論を行う、きめ細かいマッチング行動を提供する。
Holiは2つのモードの特徴を、RoCoからの位置情報のガイドの下で無関係な冗長性を抑えるクロスモーダルアテンション機構によって統合する。
このように、ロコモジュールとホリモジュールが組み込まれたことにより、CPRNは位置推論の視覚的詳細をキャプチャし、モデルがより正確なセグメンテーションを達成する。
私たちの知る限りでは、位置推論モデリングに重点を置く最初の作品です。
また,提案手法を3つの評価データセットで検証した。
既存の最先端メソッドよりも一貫して優れています。
関連論文リスト
- Cross-Modal Bidirectional Interaction Model for Referring Remote Sensing Image Segmentation [9.109484087832058]
リモートセンシング画像セグメンテーション(RRSIS)の目標は、参照式によって識別された対象オブジェクトの画素レベルマスクを生成することである。
上記の課題に対処するため、クロスモーダル双方向相互作用モデル(CroBIM)と呼ばれる新しいRRSISフレームワークが提案されている。
RRSISの研究をさらに推し進めるために、52,472個の画像言語ラベル三重項からなる新しい大規模ベンチマークデータセットRISBenchを構築した。
論文 参考訳(メタデータ) (2024-10-11T08:28:04Z) - RISAM: Referring Image Segmentation via Mutual-Aware Attention Features [13.64992652002458]
イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
本稿では,SAM(Seegment Anything Model)を利用した参照画像分割手法MARISを提案する。
論文 参考訳(メタデータ) (2023-11-27T11:24:25Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Salient Object Ranking with Position-Preserved Attention [44.94722064885407]
本研究では,検出対象のランク付け順序を視覚的サリエンシに応じて割り当てるSOR(Salient Object Ranking)タスクについて検討する。
本稿では,SORタスクの最初のエンドツーエンドフレームワークを提案し,マルチタスク学習方式で解決する。
また、SORブランチ用に調整されたPPAモジュールも導入する。
論文 参考訳(メタデータ) (2021-06-09T13:00:05Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z) - Bidirectional Graph Reasoning Network for Panoptic Segmentation [126.06251745669107]
本稿では,BGRNet(Bidirectional Graph Reasoning Network)を導入し,前景物と背景物間のモジュラー内およびモジュラー間関係について検討する。
BGRNetはまず、インスタンスとセマンティックセグメンテーションの両方でイメージ固有のグラフを構築し、提案レベルとクラスレベルで柔軟な推論を可能にする。
論文 参考訳(メタデータ) (2020-04-14T02:32:10Z) - High-Order Information Matters: Learning Relation and Topology for
Occluded Person Re-Identification [84.43394420267794]
本稿では,高次関係とトポロジ情報を識別的特徴とロバストなアライメントのために学習し,新しい枠組みを提案する。
我々のフレームワークはOccluded-Dukeデータセットで最先端の6.5%mAPスコアを大幅に上回っている。
論文 参考訳(メタデータ) (2020-03-18T12:18:35Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。