論文の概要: CMF: Cascaded Multi-model Fusion for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2106.08617v1
- Date: Wed, 16 Jun 2021 08:18:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 04:36:24.099170
- Title: CMF: Cascaded Multi-model Fusion for Referring Image Segmentation
- Title(参考訳): CMF:画像分割参照のための多モデル融合
- Authors: Jianhua Yang, Yan Huang, Zhanyu Ma, Liang Wang
- Abstract要約: 本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 24.942658173937563
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we address the task of referring image segmentation (RIS),
which aims at predicting a segmentation mask for the object described by a
natural language expression. Most existing methods focus on establishing
unidirectional or directional relationships between visual and linguistic
features to associate two modalities together, while the multi-scale context is
ignored or insufficiently modeled. Multi-scale context is crucial to localize
and segment those objects that have large scale variations during the
multi-modal fusion process. To solve this problem, we propose a simple yet
effective Cascaded Multi-modal Fusion (CMF) module, which stacks multiple
atrous convolutional layers in parallel and further introduces a cascaded
branch to fuse visual and linguistic features. The cascaded branch can
progressively integrate multi-scale contextual information and facilitate the
alignment of two modalities during the multi-modal fusion process. Experimental
results on four benchmark datasets demonstrate that our method outperforms most
state-of-the-art methods. Code is available at
https://github.com/jianhua2022/CMF-Refseg.
- Abstract(参考訳): 本研究では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
既存の手法の多くは、視覚的特徴と言語的特徴の間の一方向的・指向的な関係を確立することに集中し、2つのモダリティを関連付ける。
マルチスケールコンテキストは、マルチモーダル融合プロセス中に大規模に変化するオブジェクトをローカライズし、セグメンテーションするために不可欠である。
そこで本研究では,複数の重畳層を並列に積み重ね,さらに視覚的・言語的特徴を融合するカスケードブランチを導入する,単純かつ効果的な多モード融合(cmf)モジュールを提案する。
カスケードブランチは、マルチスケールなコンテキスト情報を段階的に統合し、マルチモーダル融合プロセス中に2つのモダリティのアライメントを容易にする。
4つのベンチマークデータセットの実験結果から,本手法は最先端の手法よりも優れていることが示された。
コードはhttps://github.com/jianhua2022/CMF-Refsegで入手できる。
関連論文リスト
- Part-Whole Relational Fusion Towards Multi-Modal Scene Understanding [51.96911650437978]
マルチモーダル融合はマルチモーダルシーン理解において重要な役割を担っている。
既存のほとんどの手法は、2つのモダリティを含むクロスモーダル融合に焦点を当てており、しばしばより複雑なマルチモーダル融合を見落としている。
マルチモーダルシーン理解のためのPWRF(Relational Part-Whole Fusion)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-19T02:27:30Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - RISAM: Referring Image Segmentation via Mutual-Aware Attention Features [13.64992652002458]
イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
本稿では,SAM(Seegment Anything Model)を利用した参照画像分割手法MARISを提案する。
論文 参考訳(メタデータ) (2023-11-27T11:24:25Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Comprehensive Multi-Modal Interactions for Referring Image Segmentation [7.064383217512461]
与えられた自然言語記述に対応するセグメンテーションマップを出力する参照画像(RIS)について検討する。
RISを効率的に解くためには、各単語が他の単語、画像内の各領域と他の領域との関係、および言語と視覚ドメイン間の相互モーダルアライメントを理解する必要があります。
本稿では,この課題に対処するための共同推論 (JRM) モジュールと,新しいクロスモーダル多層融合 (CMMLF) モジュールを提案する。
論文 参考訳(メタデータ) (2021-04-21T08:45:09Z) - Linguistic Structure Guided Context Modeling for Referring Image
Segmentation [61.701577239317785]
本稿では,マルチモーダルコンテキストを相互モーダル相互作用によりモデル化する「ガザ・プロパゲート・ディストリビュート」方式を提案する。
我々のLSCMモジュールは依存パーシングツリーワードグラフ(DPT-WG)を構築し、文の有効なマルチモーダルコンテキストを含むようにすべての単語を誘導する。
論文 参考訳(メタデータ) (2020-10-01T16:03:51Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。