論文の概要: EAVL: Explicitly Align Vision and Language for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2308.09779v1
- Date: Fri, 18 Aug 2023 18:59:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 19:59:43.921508
- Title: EAVL: Explicitly Align Vision and Language for Referring Image
Segmentation
- Title(参考訳): EAVL:画像セグメンテーションを参照するための視覚と言語
- Authors: Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu
- Abstract要約: 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。
従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。
画像参照のための視覚と言語を明示的に調整する(EAVL)。
- 参考スコア(独自算出の注目度): 29.344418371301295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment an object mentioned in natural
language from an image. A main challenge is language-related localization,
which means locating the object with the relevant language. Previous approaches
mainly focus on the fusion of vision and language features without fully
addressing language-related localization. In previous approaches, fused
vision-language features are directly fed into a decoder and pass through a
convolution with a fixed kernel to obtain the result, which follows a similar
pattern as traditional image segmentation. This approach does not explicitly
align language and vision features in the segmentation stage, resulting in a
suboptimal language-related localization. Different from previous methods, we
propose Explicitly Align the Vision and Language for Referring Image
Segmentation (EAVL). Instead of using a fixed convolution kernel, we propose an
Aligner which explicitly aligns the vision and language features in the
segmentation stage. Specifically, a series of unfixed convolution kernels are
generated based on the input l, and then are use to explicitly align the vision
and language features. To achieve this, We generate multiple queries that
represent different emphases of the language expression. These queries are
transformed into a series of query-based convolution kernels. Then, we utilize
these kernels to do convolutions in the segmentation stage and obtain a series
of segmentation masks. The final result is obtained through the aggregation of
all masks. Our method can not only fuse vision and language features
effectively but also exploit their potential in the segmentation stage. And
most importantly, we explicitly align language features of different emphases
with the image features to achieve language-related localization. Our method
surpasses previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by
large margins.
- Abstract(参考訳): 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。
主な課題は言語に関連したローカライゼーションである。
従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。
従来のアプローチでは、融合した視覚言語機能はデコーダに直接入力され、固定されたカーネルとの畳み込みを通過して結果を得る。
このアプローチは、セグメンテーション段階における言語と視覚の特徴を明示的に調整するものではない。
従来の手法とは違って,画像セグメンテーション(EAVL)のための視覚と言語を明示的にアライメントする手法を提案する。
固定畳み込みカーネルの代わりに,セグメント化段階における視覚と言語の特徴を明確に整列する Aligner を提案する。
具体的には、一連の固定されていない畳み込みカーネルが入力lに基づいて生成され、視覚と言語の特徴を明示的に整列するために使用される。
これを実現するために、言語表現の異なる相を表す複数のクエリを生成する。
これらのクエリは、一連のクエリベースの畳み込みカーネルに変換される。
次に,これらのカーネルを用いてセグメンテーション段階の畳み込みを行い,一連のセグメンテーションマスクを得る。
最終結果はすべてのマスクの集合によって得られる。
本手法は視覚と言語機能を効果的に融合できるだけでなく,セグメンテーション段階でその潜在能力を活用できる。
そして、最も重要なことは、異なる位相の言語特徴を画像特徴と明示的に整合させ、言語関連ローカライゼーションを実現することである。
提案手法は,RefCOCO,RefCOCO+,G-Refにおける従来の最先端手法を大きなマージンで上回る。
関連論文リスト
- Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。