論文の概要: Comprehensive Multi-Modal Interactions for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2104.10412v1
- Date: Wed, 21 Apr 2021 08:45:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-22 21:12:37.226147
- Title: Comprehensive Multi-Modal Interactions for Referring Image Segmentation
- Title(参考訳): 画像分割参照のための総合的マルチモーダルインタラクション
- Authors: Kanishk Jain, Vineet Gandhi
- Abstract要約: 与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像(RIS)について検討する。
RISを効率的に解くためには、各単語が他の単語、画像内の各領域と他の領域との関係、および言語と視覚ドメイン間の相互モーダルアライメントを理解する必要があります。
本稿では,この課題に対処するための共同推論 (JRM) モジュールと,新しいクロスモーダル多層融合 (CMMLF) モジュールを提案する。
- 参考スコア(独自算出の注目度): 7.064383217512461
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We investigate Referring Image Segmentation (RIS), which outputs a
segmentation map corresponding to the given natural language description. To
solve RIS efficiently, we need to understand each word's relationship with
other words, each region in the image to other regions, and cross-modal
alignment between linguistic and visual domains. Recent methods model these
three types of interactions sequentially. We argue that such a modular approach
limits these methods' performance, and joint simultaneous reasoning can help
resolve ambiguities. To this end, we propose a Joint Reasoning (JRM) module and
a novel Cross-Modal Multi-Level Fusion (CMMLF) module for tackling this task.
JRM effectively models the referent's multi-modal context by jointly reasoning
over visual and linguistic modalities (performing word-word, image
region-region, word-region interactions in a single module). CMMLF module
further refines the segmentation masks by exchanging contextual information
across visual hierarchy through linguistic features acting as a bridge. We
present thorough ablation studies and validate our approach's performance on
four benchmark datasets, and show that the proposed method outperforms the
existing state-of-the-art methods on all four datasets by significant margins.
- Abstract(参考訳): 与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像セグメンテーション(RIS)について検討する。
RISを効率的に解くためには、各単語と他の単語との関係、画像内の各領域と他の領域との関係、言語領域と視覚領域の相互アライメントを理解する必要がある。
最近の手法はこれらの3種類の相互作用を逐次モデル化する。
このようなモジュラーアプローチはこれらの手法の性能を制限し、同時推論はあいまいさの解消に役立つと論じている。
そこで本研究では,この課題に対処するための共同推論(JRM)モジュールとクロスモーダル多層融合(CMMLF)モジュールを提案する。
jrmは、視覚的および言語的モダリティ(単語、画像領域、単語-地域間相互作用を単一のモジュールで表現する)を推論することで、参照者のマルチモーダルコンテキストを効果的にモデル化する。
CMMLFモジュールは、ブリッジとして機能する言語的特徴を通じて、視覚階層にわたってコンテキスト情報を交換することで、セグメンテーションマスクをさらに洗練する。
提案手法は,4つのベンチマークデータセット上でのアプローチ性能を徹底的に検証し,提案手法が4つのデータセットの既存の最先端手法よりも有意なマージンで優れていることを示す。
関連論文リスト
- Generalizable Entity Grounding via Assistance of Large Language Model [77.07759442298666]
本稿では,長いキャプションから密接な視覚的実体を抽出する手法を提案する。
本研究では,意味代名詞の抽出に大規模なマルチモーダルモデル,エンティティレベルのセグメンテーションを生成するクラス-aセグメンテーションモデル,および各セグメンテーション名詞と対応するセグメンテーションマスクを関連付けるマルチモーダル特徴融合モジュールを利用する。
論文 参考訳(メタデータ) (2024-02-04T16:06:05Z) - RISAM: Referring Image Segmentation via Mutual-Aware Attention Features [13.64992652002458]
イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
本稿では,SAM(Seegment Anything Model)を利用した参照画像分割手法MARISを提案する。
論文 参考訳(メタデータ) (2023-11-27T11:24:25Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Semantics-Consistent Cross-domain Summarization via Optimal Transport
Alignment [80.18786847090522]
本稿では,視覚とテキストのセグメンテーションによる最適なトランスポートアライメントに基づくセマンティックス・コンスタントなクロスドメイン要約モデルを提案する。
提案手法を最近の3つのマルチモーダルデータセット上で評価し,高品質なマルチモーダル要約を作成する上での有効性を実証した。
論文 参考訳(メタデータ) (2022-10-10T14:27:10Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - Cross-Modal Progressive Comprehension for Referring Segmentation [89.58118962086851]
人間の行動を効果的に模倣するクロスモーダルプログレッシブ(CMPC)スキーム。
画像データの場合、CMPC-Iモジュールはまずエンティティと属性の単語を使用して、式によって考慮される可能性のあるすべての関連エンティティを知覚します。
ビデオデータの場合、CMPC-VモジュールはCMPC-Iに基づくアクションワードをさらに活用し、時間グラフ推論によるアクションキューと一致する正しいエンティティを強調します。
論文 参考訳(メタデータ) (2021-05-15T08:55:51Z) - Referring Segmentation in Images and Videos with Cross-Modal
Self-Attention Network [27.792054915363106]
クロスモーダル・セルフアテンション(CMSA)モジュールは個々の単語や入力画像やビデオの詳細な情報を利用する。
ゲート型多層核融合(GMLF)モジュールは、自己注意型クロスモーダル機能を選択的に統合する。
クロスフレーム自己アテンション(CFSA)モジュールは、連続フレーム内の時間情報を効果的に統合する。
論文 参考訳(メタデータ) (2021-02-09T11:27:59Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。