論文の概要: Cross-Modal Progressive Comprehension for Referring Segmentation
- arxiv url: http://arxiv.org/abs/2105.07175v1
- Date: Sat, 15 May 2021 08:55:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-18 14:31:17.222616
- Title: Cross-Modal Progressive Comprehension for Referring Segmentation
- Title(参考訳): セグメンテーション参照のためのクロスモーダルプログレッシブ理解
- Authors: Si Liu, Tianrui Hui, Shaofei Huang, Yunchao Wei, Bo Li, Guanbin Li
- Abstract要約: 人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
- 参考スコア(独自算出の注目度): 89.58118962086851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given a natural language expression and an image/video, the goal of referring
segmentation is to produce the pixel-level masks of the entities described by
the subject of the expression. Previous approaches tackle this problem by
implicit feature interaction and fusion between visual and linguistic
modalities in a one-stage manner. However, human tends to solve the referring
problem in a progressive manner based on informative words in the expression,
i.e., first roughly locating candidate entities and then distinguishing the
target one. In this paper, we propose a Cross-Modal Progressive Comprehension
(CMPC) scheme to effectively mimic human behaviors and implement it as a CMPC-I
(Image) module and a CMPC-V (Video) module to improve referring image and video
segmentation models. For image data, our CMPC-I module first employs entity and
attribute words to perceive all the related entities that might be considered
by the expression. Then, the relational words are adopted to highlight the
target entity as well as suppress other irrelevant ones by spatial graph
reasoning. For video data, our CMPC-V module further exploits action words
based on CMPC-I to highlight the correct entity matched with the action cues by
temporal graph reasoning. In addition to the CMPC, we also introduce a simple
yet effective Text-Guided Feature Exchange (TGFE) module to integrate the
reasoned multimodal features corresponding to different levels in the visual
backbone under the guidance of textual information. In this way, multi-level
features can communicate with each other and be mutually refined based on the
textual context. Combining CMPC-I or CMPC-V with TGFE can form our image or
video version referring segmentation frameworks and our frameworks achieve new
state-of-the-art performances on four referring image segmentation benchmarks
and three referring video segmentation benchmarks respectively.
- Abstract(参考訳): 自然言語表現と画像/ビデオが与えられた場合、セグメンテーションの目標は、表現の対象によって記述されるエンティティのピクセルレベルのマスクを作成することである。
それまでのアプローチでは、暗黙的特徴の相互作用と視覚と言語的モダリティの融合を1段階の方法で実現していた。
しかしながら、人間は、表現中の情報的単語、すなわち、まず候補を大まかに配置し、次に対象を区別することで、参照問題を段階的に解決する傾向にある。
本稿では、人間の行動を効果的に模倣し、CMPC-I(画像)モジュールとCMPC-V(映像)モジュールとして実装し、参照画像と映像のセグメンテーションモデルを改善するためのCMPC(Cross-Modal Progressive Comprehension)スキームを提案する。
画像データについて、CMPC-Iモジュールはまず、表現によって考慮される可能性のあるすべての関連エンティティを知覚するためにエンティティと属性語を使用する。
そして、その関係語を用いて対象のエンティティをハイライトし、空間グラフ推論により他の無関係な単語を抑圧する。
ビデオデータでは、CMPC-VモジュールはさらにCMPC-Iに基づくアクションワードを利用して、時間グラフ推論によりアクションキューと一致する正しいエンティティをハイライトする。
また,CMPCに加えて,テキスト情報の指導の下で視覚バックボーンの異なるレベルに対応するマルチモーダル機能を統合するための,シンプルで効果的なテキストガイド機能交換(TGFE)モジュールも導入した。
このようにして、マルチレベル機能は相互に通信でき、テキストコンテキストに基づいて相互に洗練される。
CMPC-I と CMPC-V を TGFE と組み合わせることで,画像またはビデオのバージョンのセグメンテーションフレームワークを作成でき,このフレームワークは4つの参照画像セグメンテーションベンチマークと3つの参照ビデオセグメンテーションベンチマークでそれぞれ新しい最先端パフォーマンスを実現する。
関連論文リスト
- Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Exploring Intra- and Inter-Video Relation for Surgical Semantic Scene
Segmentation [58.74791043631219]
セグメンテーション性能を高めるために,映像内および映像間関係を補完する新しいフレームワークSTswinCLを提案する。
本研究では,EndoVis18 ChallengeとCaDISデータセットを含む2つの公開手術ビデオベンチマークに対するアプローチを広く検証する。
実験により,従来の最先端手法を一貫して超越した提案手法の有望な性能を示す。
論文 参考訳(メタデータ) (2022-03-29T05:52:23Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。