論文の概要: Vision-Language Transformer and Query Generation for Referring
Segmentation
- arxiv url: http://arxiv.org/abs/2108.05565v1
- Date: Thu, 12 Aug 2021 07:24:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-13 14:35:42.008826
- Title: Vision-Language Transformer and Query Generation for Referring
Segmentation
- Title(参考訳): 参照セグメンテーションのためのビジョンランゲージ変換器とクエリ生成
- Authors: Henghui Ding, Chang Liu, Suchen Wang, Xudong Jiang
- Abstract要約: 我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
- 参考スコア(独自算出の注目度): 39.01244764840372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the challenging task of referring segmentation. The
query expression in referring segmentation typically indicates the target
object by describing its relationship with others. Therefore, to find the
target one among all instances in the image, the model must have a holistic
understanding of the whole image. To achieve this, we reformulate referring
segmentation as a direct attention problem: finding the region in the image
where the query language expression is most attended to. We introduce
transformer and multi-head attention to build a network with an encoder-decoder
attention mechanism architecture that "queries" the given image with the
language expression. Furthermore, we propose a Query Generation Module, which
produces multiple sets of queries with different attention weights that
represent the diversified comprehensions of the language expression from
different aspects. At the same time, to find the best way from these
diversified comprehensions based on visual clues, we further propose a Query
Balance Module to adaptively select the output features of these queries for a
better mask generation. Without bells and whistles, our approach is
light-weight and achieves new state-of-the-art performance consistently on
three referring segmentation datasets, RefCOCO, RefCOCO+, and G-Ref. Our code
is available at https://github.com/henghuiding/Vision-Language-Transformer.
- Abstract(参考訳): 本研究では,セグメンテーションの参照という課題に対処する。
セグメンテーションを参照するクエリ式は、通常、他のオブジェクトとの関係を記述することによってターゲットオブジェクトを示す。
したがって、画像中の全てのインスタンスのターゲットの1つを見つけるためには、モデルが全体像の全体像を理解する必要がある。
これを実現するために,問合せ言語表現が最もよく対応している画像内の領域を見つけるという,直接的な注意課題としてセグメンテーションの参照を再構成する。
本稿では,トランスフォーマーとマルチヘッドアテンションを導入して,言語表現で与えられた画像を"クエリ"するエンコーダ・デコーダアテンション機構アーキテクチャを備えたネットワークを構築する。
さらに,様々な面から言語表現の多角的理解を表現する,注意重みの異なる複数の問合せ集合を生成するクエリ生成モジュールを提案する。
同時に,視覚的な手がかりに基づく多様な理解から最善の方法を見出すため,より優れたマスク生成のために,これらのクエリの出力特徴を適応的に選択するクエリバランスモジュールを提案する。
ベルとホイッスルがなければ、我々のアプローチは軽量であり、3つの参照セグメンテーションデータセットであるRefCOCO、RefCOCO+、G-Refに対して、新しい最先端性能を実現する。
私たちのコードはhttps://github.com/henghuiding/Vision-Language-Transformerで利用可能です。
関連論文リスト
- OneRef: Unified One-tower Expression Grounding and Segmentation with Mask Referring Modeling [80.85164509232261]
モダリティ共有型1-tower変換器上に構築された最小限の参照フレームワークであるOneRefを提案する。
参照関係をモデル化するために,マスク参照モデリング(MRefM)と呼ばれる新しいMVLMパラダイムを導入する。
MRefM内では,参照型動的画像マスキング戦略を提案し,参照領域を認識した。
論文 参考訳(メタデータ) (2024-10-10T15:18:19Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - VLT: Vision-Language Transformer and Query Generation for Referring
Segmentation [31.051579752237746]
マルチモーダル情報間のディープインタラクションを容易にするために,セグメンテーションを参照するためのフレームワークを提案する。
我々は,同じ対象対象に対して異なる表現の特徴を狭めるために,マスク付きコントラスト学習を導入する。
提案手法は軽量で,5つのデータセットに対して一貫した,最先端の参照セグメンテーション結果を実現する。
論文 参考訳(メタデータ) (2022-10-28T03:36:07Z) - ReSTR: Convolution-free Referring Image Segmentation Using Transformers [80.9672131755143]
本稿では,ReSTRと呼ばれる変換器を用いた画像セグメンテーションのための最初の畳み込みフリーモデルを提案する。
変換器エンコーダを通じて両方のモダリティの特徴を抽出するため、ReSTRは各モダリティ内のエンティティ間の長距離依存関係をキャプチャすることができる。
また、ReSTRは自己アテンションエンコーダによって2つのモードの特徴を融合させ、融合過程における2つのモード間のフレキシブルで適応的な相互作用を可能にする。
論文 参考訳(メタデータ) (2022-03-31T02:55:39Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。