論文の概要: MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2111.10747v1
- Date: Sun, 21 Nov 2021 05:54:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 09:04:56.654408
- Title: MaIL: A Unified Mask-Image-Language Trimodal Network for Referring Image
Segmentation
- Title(参考訳): MaIL:イメージセグメンテーションの参照のための統一マスク画像言語トリモーダルネットワーク
- Authors: Zizhang Li, Mengmeng Wang, Jianbiao Mei, Yong Liu
- Abstract要約: MaILはより簡潔なエンコーダ・デコーダパイプラインであり、Mask-Image-Language のトリモーダル・エンコーダを備えている。
MaILは、一様特徴抽出器とその融合モデルを深層モード相互作用エンコーダに統一する。
はじめに、インスタンスレベルの機能を明示的に強化する追加のモダリティとして、インスタンスマスクを導入することを提案する。
- 参考スコア(独自算出の注目度): 13.311777431243296
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring image segmentation is a typical multi-modal task, which aims at
generating a binary mask for referent described in given language expressions.
Prior arts adopt a bimodal solution, taking images and languages as two
modalities within an encoder-fusion-decoder pipeline. However, this pipeline is
sub-optimal for the target task for two reasons. First, they only fuse
high-level features produced by uni-modal encoders separately, which hinders
sufficient cross-modal learning. Second, the uni-modal encoders are pre-trained
independently, which brings inconsistency between pre-trained uni-modal tasks
and the target multi-modal task. Besides, this pipeline often ignores or makes
little use of intuitively beneficial instance-level features. To relieve these
problems, we propose MaIL, which is a more concise encoder-decoder pipeline
with a Mask-Image-Language trimodal encoder. Specifically, MaIL unifies
uni-modal feature extractors and their fusion model into a deep modality
interaction encoder, facilitating sufficient feature interaction across
different modalities. Meanwhile, MaIL directly avoids the second limitation
since no uni-modal encoders are needed anymore. Moreover, for the first time,
we propose to introduce instance masks as an additional modality, which
explicitly intensifies instance-level features and promotes finer segmentation
results. The proposed MaIL set a new state-of-the-art on all frequently-used
referring image segmentation datasets, including RefCOCO, RefCOCO+, and G-Ref,
with significant gains, 3%-10% against previous best methods. Code will be
released soon.
- Abstract(参考訳): 参照画像セグメント化は、与えられた言語表現で記述された参照のためのバイナリマスクを生成することを目的とした、典型的なマルチモーダルタスクである。
プリエントアーツはバイモーダルソリューションを採用し、エンコーダ-フュージョン-デコーダパイプライン内でイメージと言語を2つのモダリティとして扱う。
しかしながら、このパイプラインは2つの理由から、ターゲットタスクのサブ最適化である。
まず、ユニモーダルエンコーダが生成するハイレベルな機能を別々に融合するだけで、十分なクロスモーダル学習を妨げる。
第二に、ユニモーダルエンコーダは独立してプリトレーニングされ、プリトレーニングされたユニモーダルタスクとターゲットのマルチモーダルタスクとの間の不整合をもたらす。
さらに、このパイプラインは直感的に有用なインスタンスレベルの機能を無視するか、ほとんど利用しないことが多い。
これらの問題を解消するため、より簡潔なエンコーダデコーダパイプラインであるMaILと、Mask-Image-Language トリモーダルエンコーダを提案する。
具体的には、一様特徴抽出器とその融合モデルを深いモーダル相互作用エンコーダに統合し、異なるモーダル間の十分な特徴相互作用を容易にする。
一方、MaILは、ユニモーダルエンコーダがもはや不要であるため、第2の制限を直接回避する。
さらに,インスタンスレベルの特徴を明示的に強調し,より細かなセグメンテーション結果を促進する,追加のモダリティとしてインスタンスマスクを導入することを提案する。
提案されたMaILは、RefCOCO、RefCOCO+、G-Refを含む、頻繁に使用されるすべての参照イメージセグメンテーションデータセットに対して、新たな最先端のデータセットを設定した。
コードはまもなくリリースされる。
関連論文リスト
- A Simple Baseline with Single-encoder for Referring Image Segmentation [14.461024566536478]
本稿では,単一エンコーダ(BEiT-3)を用いたRIS法を提案する。
単一エンコーダによる単純なベースラインは、RISベンチマークデータセット上で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-08-28T04:14:01Z) - Large Language Models for Multimodal Deformable Image Registration [50.91473745610945]
そこで本研究では,様々な医用画像からの深い特徴の整合を図るために,新しい粗いMDIRフレームワークLLM-Morphを提案する。
具体的には、まずCNNエンコーダを用いて、クロスモーダル画像ペアから深い視覚的特徴を抽出し、次に、最初のアダプタを使ってこれらのトークンを調整する。
第3に、トークンのアライメントのために、他の4つのアダプタを使用して、LLM符号化トークンをマルチスケールの視覚特徴に変換し、マルチスケールの変形場を生成し、粗いMDIRタスクを容易にする。
論文 参考訳(メタデータ) (2024-08-20T09:58:30Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Divided Attention: Unsupervised Multi-Object Discovery with Contextually
Separated Slots [78.23772771485635]
本研究では,視覚領域を独立した移動領域に分割し,基礎的な真実や監督を伴わずに訓練する手法を提案する。
Slot Attentionに基づく逆条件エンコーダ・デコーダアーキテクチャで構成されている。
論文 参考訳(メタデータ) (2023-04-04T00:26:13Z) - PiMAE: Point Cloud and Image Interactive Masked Autoencoders for 3D
Object Detection [26.03582038710992]
Masked Autoencoderは強力な視覚表現を学び、いくつかの独立したモダリティで最先端の結果を得る。
本研究は,実世界でしばしば提示される2つのモダリティである,ポイントクラウドとRGBイメージデータに焦点を当てる。
我々は3つの側面を通して3次元と2次元の相互作用を促進する自己教師付き事前学習フレームワークPiMAEを提案する。
論文 参考訳(メタデータ) (2023-03-14T17:58:03Z) - Multi-Attention Network for Compressed Video Referring Object
Segmentation [103.18477550023513]
ビデオオブジェクトのセグメンテーションの参照は、与えられた言語表現によって参照されるオブジェクトをセグメンテーションすることを目的としている。
既存の作業は通常、圧縮されたビデオビットストリームをセグメント化する前にRGBフレームにデコードする必要がある。
これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。
論文 参考訳(メタデータ) (2022-07-26T03:00:52Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z) - VLM: Task-agnostic Video-Language Model Pre-training for Video
Understanding [78.28397557433544]
本稿では,タスクに依存しないマルチモーダル事前学習手法を提案する。
実験の結果,従来の手法よりも広い範囲のタスクに対して強い性能を示し,タスク固有の事前学習よりも優れていた。
論文 参考訳(メタデータ) (2021-05-20T19:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。