論文の概要: MMNet: Multi-Mask Network for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2305.14969v1
- Date: Wed, 24 May 2023 10:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 17:24:04.136874
- Title: MMNet: Multi-Mask Network for Referring Image Segmentation
- Title(参考訳): MMNet:画像セグメント参照のためのマルチマスクネットワーク
- Authors: Yichen Yan, Xingjian He, Wenxuan Wan, Jing Liu
- Abstract要約: 画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
- 参考スコア(独自算出の注目度): 6.462622145673872
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment an object referred to by natural
language expression from an image. However, this task is challenging due to the
distinct data properties between text and image, and the randomness introduced
by diverse objects and unrestricted language expression. Most of previous work
focus on improving cross-modal feature fusion while not fully addressing the
inherent uncertainty caused by diverse objects and unrestricted language. To
tackle these problems, we propose an end-to-end Multi-Mask Network for
referring image segmentation(MMNet). we first combine picture and language and
then employ an attention mechanism to generate multiple queries that represent
different aspects of the language expression. We then utilize these queries to
produce a series of corresponding segmentation masks, assigning a score to each
mask that reflects its importance. The final result is obtained through the
weighted sum of all masks, which greatly reduces the randomness of the language
expression. Our proposed framework demonstrates superior performance compared
to state-of-the-art approaches on the two most commonly used datasets, RefCOCO,
RefCOCO+ and G-Ref, without the need for any post-processing. This further
validates the efficacy of our proposed framework.
- Abstract(参考訳): 参照画像分割は、画像から自然言語表現で参照されるオブジェクトを分割することを目的としている。
しかし、この課題は、テキストと画像の異なるデータ特性と、多様なオブジェクトと制約のない言語表現によって引き起こされるランダム性のため、困難である。
これまでの作業のほとんどは、多種多様なオブジェクトと制約のない言語によって引き起こされる固有の不確実性を完全に解決することなく、クロスモーダルな機能融合の改善に重点を置いていた。
これらの問題を解決するために,画像分割(MMNet)を参照するためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成するための注意機構を使用します。
次に、これらのクエリを使用して一連のセグメンテーションマスクを生成し、その重要性を反映したスコアを各マスクに割り当てる。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
本稿では,RefCOCO,RefCOCO+,G-Refの2つのデータセットに対して,ポストプロセッシングを必要とせず,最先端のアプローチと比較して優れた性能を示す。
これにより,提案フレームワークの有効性がさらに検証される。
関連論文リスト
- Mask Grounding for Referring Image Segmentation [42.69973300692365]
Referring Image(RIS)は、自由形式の言語表現によって参照されるオブジェクトをセグメントするアルゴリズムを必要とする難しいタスクである。
最先端のSOTA(State-of-the-art)手法の多くは、画素やワードレベルでの言語・画像のモダリティのギャップを被っている。
本稿では,言語機能内の視覚的グラウンド化を大幅に改善する,新しいマスクグラウンド化補助タスクを提案する。
論文 参考訳(メタデータ) (2023-12-19T14:34:36Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Completing Visual Objects via Bridging Generation and Segmentation [84.4552458720467]
MaskCompは、生成とセグメンテーションの反復的な段階を通して完了プロセスを記述する。
各イテレーションにおいて、オブジェクトマスクは、画像生成を促進する追加条件として提供される。
我々は,1世代と1つのセグメンテーション段階の組み合わせがマスマスデノイザーとして効果的に機能することを実証した。
論文 参考訳(メタデータ) (2023-10-01T22:25:40Z) - Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - Mask Matching Transformer for Few-Shot Segmentation [71.32725963630837]
Mask Matching Transformer (MM-Former) は、少数ショットセグメンテーションタスクのための新しいパラダイムである。
まず、MM-Formerは、まず分解し、次にブレンドするというパラダイムに従う。
一般的なCOCO-20i$とPascal-5i$ベンチマークに関する広範な実験を行っている。
論文 参考訳(メタデータ) (2022-12-05T11:00:32Z) - Discovering Object Masks with Transformers for Unsupervised Semantic
Segmentation [75.00151934315967]
MaskDistillは教師なしセマンティックセグメンテーションのための新しいフレームワークである。
我々のフレームワークは、低レベルの画像キューにラッチを付けず、オブジェクト中心のデータセットに限らない。
論文 参考訳(メタデータ) (2022-06-13T17:59:43Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - CRNet: Cross-Reference Networks for Few-Shot Segmentation [59.85183776573642]
少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。
相互参照機構により、我々のネットワークは2つの画像に共起する物体をよりよく見つけることができる。
PASCAL VOC 2012データセットの実験は、我々のネットワークが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2020-03-24T04:55:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。