論文の概要: EAVL: Explicitly Align Vision and Language for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2308.09779v2
- Date: Tue, 22 Aug 2023 00:27:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 10:47:38.405683
- Title: EAVL: Explicitly Align Vision and Language for Referring Image
Segmentation
- Title(参考訳): EAVL:画像セグメンテーションを参照するための視覚と言語
- Authors: Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu
- Abstract要約: 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。
従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。
画像参照のための視覚と言語を明示的に調整する(EAVL)。
- 参考スコア(独自算出の注目度): 29.344418371301295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment an object mentioned in natural
language from an image. A main challenge is language-related localization,
which means locating the object with the relevant language. Previous approaches
mainly focus on the fusion of vision and language features without fully
addressing language-related localization. In previous approaches, fused
vision-language features are directly fed into a decoder and pass through a
convolution with a fixed kernel to obtain the result, which follows a similar
pattern as traditional image segmentation. This approach does not explicitly
align language and vision features in the segmentation stage, resulting in a
suboptimal language-related localization. Different from previous methods, we
propose Explicitly Align the Vision and Language for Referring Image
Segmentation (EAVL). Instead of using a fixed convolution kernel, we propose an
Aligner which explicitly aligns the vision and language features in the
segmentation stage. Specifically, a series of unfixed convolution kernels are
generated based on the input l, and then are use to explicitly align the vision
and language features. To achieve this, We generate multiple queries that
represent different emphases of the language expression. These queries are
transformed into a series of query-based convolution kernels. Then, we utilize
these kernels to do convolutions in the segmentation stage and obtain a series
of segmentation masks. The final result is obtained through the aggregation of
all masks. Our method can not only fuse vision and language features
effectively but also exploit their potential in the segmentation stage. And
most importantly, we explicitly align language features of different emphases
with the image features to achieve language-related localization. Our method
surpasses previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by
large margins.
- Abstract(参考訳): 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。
主な課題は言語に関連したローカライゼーションである。
従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。
従来のアプローチでは、融合した視覚言語機能はデコーダに直接入力され、固定されたカーネルとの畳み込みを通過して結果を得る。
このアプローチは、セグメンテーション段階における言語と視覚の特徴を明示的に調整するものではない。
従来の手法とは違って,画像セグメンテーション(EAVL)のための視覚と言語を明示的にアライメントする手法を提案する。
固定畳み込みカーネルの代わりに,セグメント化段階における視覚と言語の特徴を明確に整列する Aligner を提案する。
具体的には、一連の固定されていない畳み込みカーネルが入力lに基づいて生成され、視覚と言語の特徴を明示的に整列するために使用される。
これを実現するために、言語表現の異なる相を表す複数のクエリを生成する。
これらのクエリは、一連のクエリベースの畳み込みカーネルに変換される。
次に,これらのカーネルを用いてセグメンテーション段階の畳み込みを行い,一連のセグメンテーションマスクを得る。
最終結果はすべてのマスクの集合によって得られる。
本手法は視覚と言語機能を効果的に融合できるだけでなく,セグメンテーション段階でその潜在能力を活用できる。
そして、最も重要なことは、異なる位相の言語特徴を画像特徴と明示的に整合させ、言語関連ローカライゼーションを実現することである。
提案手法は,RefCOCO,RefCOCO+,G-Refにおける従来の最先端手法を大きなマージンで上回る。
関連論文リスト
- Grounding Everything: Emerging Localization Properties in
Vision-Language Transformers [51.260510447308306]
事前学習された視覚言語(VL)モデルでは、微調整なしでゼロショットのオープン語彙オブジェクトローカライゼーションが可能であることを示す。
本稿では,CLIPSurgeryが自己注意経路に導入した価値価値注意の考え方を一般化するグラウンドング・エコノミクス・モジュール(GEM)を提案する。
セマンティックセグメンテーションのための様々なベンチマークタスクとデータセットに基づいて提案したGEMフレームワークを評価する。
論文 参考訳(メタデータ) (2023-12-01T19:06:12Z) - MARIS: Referring Image Segmentation via Mutual-Aware Attention Features [13.64992652002458]
イメージセグメンテーション(RIS)は、言語表現プロンプトに基づいて特定の領域をセグメンテーションすることを目的としている。
既存の手法では、言語的特徴を視覚的特徴に取り入れ、マスク復号のためのマルチモーダル特徴を得る。
本稿では,SAM(Seegment Anything Model)を利用した参照画像分割手法MARISを提案する。
論文 参考訳(メタデータ) (2023-11-27T11:24:25Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Position-Aware Contrastive Alignment for Referring Image Segmentation [65.16214741785633]
マルチモーダル特徴のアライメントを強化するために,位置認識型コントラストアライメントネットワーク(PCAN)を提案する。
1)自然言語記述に関連するすべてのオブジェクトの位置情報を提供する位置認識モジュール(PAM)と,2)マルチモーダルアライメントを強化するコントラスト言語理解モジュール(CLUM)の2つのモジュールで構成されている。
論文 参考訳(メタデータ) (2022-12-27T09:13:19Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z) - Vokenization: Improving Language Understanding with Contextualized,
Visual-Grounded Supervision [110.66085917826648]
我々は,言語トークンを関連画像に文脈的にマッピングすることで,言語のみのデータに対するマルチモーダルアライメントを補間する手法を開発した。
語彙化」は比較的小さな画像キャプションデータセットに基づいて訓練され、それを大規模言語コーパスのための語彙生成に適用する。
これらの文脈的に生成された語彙を用いて学習し、視覚的に制御された言語モデルにより、複数の純粋言語タスクにおいて、自己教師による代替よりも一貫した改善が示される。
論文 参考訳(メタデータ) (2020-10-14T02:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。