論文の概要: Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation
- arxiv url: http://arxiv.org/abs/2305.15302v1
- Date: Wed, 24 May 2023 16:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 14:20:31.107393
- Title: Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation
- Title(参考訳): 画像分割参照のためのマルチモーダル相互注意と反復的相互作用
- Authors: Chang Liu, Henghui Ding, Yulun Zhang, Xudong Jiang
- Abstract要約: 本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
- 参考スコア(独自算出の注目度): 49.6153714376745
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We address the problem of referring image segmentation that aims to generate
a mask for the object specified by a natural language expression. Many recent
works utilize Transformer to extract features for the target object by
aggregating the attended visual regions. However, the generic attention
mechanism in Transformer only uses the language input for attention weight
calculation, which does not explicitly fuse language features in its output.
Thus, its output feature is dominated by vision information, which limits the
model to comprehensively understand the multi-modal information, and brings
uncertainty for the subsequent mask decoder to extract the output mask. To
address this issue, we propose Multi-Modal Mutual Attention ($\mathrm{M^3Att}$)
and Multi-Modal Mutual Decoder ($\mathrm{M^3Dec}$) that better fuse information
from the two input modalities. Based on {$\mathrm{M^3Dec}$}, we further propose
Iterative Multi-modal Interaction ($\mathrm{IMI}$) to allow continuous and
in-depth interactions between language and vision features. Furthermore, we
introduce Language Feature Reconstruction ($\mathrm{LFR}$) to prevent the
language information from being lost or distorted in the extracted feature.
Extensive experiments show that our proposed approach significantly improves
the baseline and outperforms state-of-the-art referring image segmentation
methods on RefCOCO series datasets consistently.
- Abstract(参考訳): 自然言語表現で指定された対象のマスク生成を目的とした画像セグメンテーションを参照する問題に対処する。
最近の多くの作品では、transformerを使用して、参加者の視覚領域を集約することで対象オブジェクトの特徴を抽出する。
しかし、transformerの一般的な注意機構は、注意重み計算に言語入力のみを使用する。
したがって、その出力特徴は視覚情報に支配され、モデルがマルチモーダル情報を包括的に理解することを制限し、その後のマスクデコーダが出力マスクを抽出する不確実性をもたらす。
この問題に対処するため、我々は2つの入力モダリティから情報を融合するマルチモーダル相互注意(\mathrm{m^3att}$)とマルチモーダル相互デコーダ(\mathrm{m^3dec}$)を提案する。
さらに、{$\mathrm{M^3Dec}$} に基づいて、言語と視覚の特徴間の連続的かつ詳細な相互作用を可能にする反復的マルチモーダルインタラクション($\mathrm{IMI}$)を提案する。
さらに,抽出した特徴で言語情報が失われたり歪んだりするのを防ぐために,言語特徴の再構成(\mathrm{lfr}$)を導入する。
広範な実験により,提案手法がベースラインを著しく改善し,refcoco系列データセットの参照画像セグメンテーション法を一貫して上回ることを示した。
関連論文リスト
- ForgeryGPT: Multimodal Large Language Model For Explainable Image Forgery Detection and Localization [49.992614129625274]
ForgeryGPTはImage Forgery DetectionとLocalizationタスクを進化させる新しいフレームワークである。
多様な言語的特徴空間からの偽画像の高次相関をキャプチャする。
新たにカスタマイズされたLarge Language Model (LLM)アーキテクチャを通じて、説明可能な生成と対話を可能にする。
論文 参考訳(メタデータ) (2024-10-14T07:56:51Z) - OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Magic Tokens: Select Diverse Tokens for Multi-modal Object Re-Identification [64.36210786350568]
マルチモーダルオブジェクトReIDのための視覚変換器から多様なトークンを選択するための,textbfEDITORという新しい学習フレームワークを提案する。
我々のフレームワークはマルチモーダルオブジェクトReIDに対してより差別的な機能を生成することができる。
論文 参考訳(メタデータ) (2024-03-15T12:44:35Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Multimodal Diffusion Segmentation Model for Object Segmentation from
Manipulation Instructions [0.0]
本研究では,自然言語の命令を理解するモデルを構築し,対象の日常オブジェクトに対するセグメンテーションマスクを生成する。
我々は、よく知られたMatterport3DとREVERIEデータセットに基づいて、新しいデータセットを構築します。
MDSMの性能はベースライン法を+10.13で上回った。
論文 参考訳(メタデータ) (2023-07-17T16:07:07Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - AISFormer: Amodal Instance Segmentation with Transformer [9.042737643989561]
Amodal Instance(AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。
本稿では、Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。
論文 参考訳(メタデータ) (2022-10-12T15:42:40Z) - MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image
Segmentation [13.311777431243296]
MaILはより簡潔なエンコーダ・デコーダパイプラインであり、Mask-Image-Language のトリモーダル・エンコーダを備えている。
MaILは、一様特徴抽出器とその融合モデルを深層モード相互作用エンコーダに統一する。
はじめに、インスタンスレベルの機能を明示的に強化する追加のモダリティとして、インスタンスマスクを導入することを提案する。
論文 参考訳(メタデータ) (2021-11-21T05:54:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。