論文の概要: Referring Image Segmentation via Cross-Modal Progressive Comprehension
- arxiv url: http://arxiv.org/abs/2010.00514v1
- Date: Thu, 1 Oct 2020 16:02:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 07:17:44.643646
- Title: Referring Image Segmentation via Cross-Modal Progressive Comprehension
- Title(参考訳): クロスモーダルプログレッシブ理解による画像セグメンテーションの参照
- Authors: Shaofei Huang, Tianrui Hui, Si Liu, Guanbin Li, Yunchao Wei, Jizhong
Han, Luoqi Liu, Bo Li
- Abstract要約: 画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
- 参考スコア(独自算出の注目度): 94.70482302324704
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims at segmenting the foreground masks of the
entities that can well match the description given in the natural language
expression. Previous approaches tackle this problem using implicit feature
interaction and fusion between visual and linguistic modalities, but usually
fail to explore informative words of the expression to well align features from
the two modalities for accurately identifying the referred entity. In this
paper, we propose a Cross-Modal Progressive Comprehension (CMPC) module and a
Text-Guided Feature Exchange (TGFE) module to effectively address the
challenging task. Concretely, the CMPC module first employs entity and
attribute words to perceive all the related entities that might be considered
by the expression. Then, the relational words are adopted to highlight the
correct entity as well as suppress other irrelevant ones by multimodal graph
reasoning. In addition to the CMPC module, we further leverage a simple yet
effective TGFE module to integrate the reasoned multimodal features from
different levels with the guidance of textual information. In this way,
features from multi-levels could communicate with each other and be refined
based on the textual context. We conduct extensive experiments on four popular
referring segmentation benchmarks and achieve new state-of-the-art
performances.
- Abstract(参考訳): 画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的・言語的モダリティの融合を用いてこの問題に対処するが、通常は2つのモダリティから特徴をうまく整合させ、参照された実体を正確に識別するのに失敗する。
本稿では,この課題を効果的に解決するために,cmpc(cross-modal progressive comprehension)モジュールとtgfe(text-guided feature exchange)モジュールを提案する。
具体的には、cmpcモジュールは、まずエンティティと属性ワードを使用して、式によって考慮されるすべての関連するエンティティを認識します。
次に、関係語を用いて正しい実体を強調するとともに、マルチモーダルグラフ推論によって他の無関係な単語を抑圧する。
cmpcモジュールに加えて,単純かつ効果的なtgfeモジュールも活用し,様々なレベルの推論されたマルチモーダル機能をテキスト情報のガイダンスと統合する。
このようにして、マルチレベルの機能が相互に通信し、テキストコンテキストに基づいて洗練される。
4つの人気のある参照セグメンテーションベンチマークを広範囲に実験し,新たな最先端性能を実現する。
関連論文リスト
- Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Cross-Modal Progressive Comprehension for Referring Segmentation [89.58118962086851]
人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
論文 参考訳(メタデータ) (2021-05-15T08:55:51Z) - Comprehensive Multi-Modal Interactions for Referring Image Segmentation [7.064383217512461]
与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像(RIS)について検討する。
RISを効率的に解くためには、各単語が他の単語、画像内の各領域と他の領域との関係、および言語と視覚ドメイン間の相互モーダルアライメントを理解する必要があります。
本稿では,この課題に対処するための共同推論 (JRM) モジュールと,新しいクロスモーダル多層融合 (CMMLF) モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-21T08:45:09Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。