論文の概要: EAVL: Explicitly Align Vision and Language for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2308.09779v3
- Date: Sat, 12 Oct 2024 14:48:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-15 15:02:35.949149
- Title: EAVL: Explicitly Align Vision and Language for Referring Image Segmentation
- Title(参考訳): EAVL:画像セグメンテーションを参照するための視覚と言語
- Authors: Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu,
- Abstract要約: 入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
- 参考スコア(独自算出の注目度): 27.351940191216343
- License:
- Abstract: Referring image segmentation (RIS) aims to segment an object mentioned in natural language from an image. The main challenge is text-to-pixel fine-grained correlation. In the previous methods, the final results are obtained by convolutions with a fixed kernel, which follows a similar pattern as traditional image segmentation. These methods lack explicit alignment of language and vision features in the segmentation stage, resulting in suboptimal correlation. In this paper, we introduce EAVL, a method explicitly aligning vision and language features. In contrast to fixed convolution kernels, we introduce a Vision-Language Aligner that aligns features in the segmentation stage using dynamic convolution kernels based on the input image and sentence. Specifically, we generate multiple queries representing different emphases of language expression. These queries are transformed into a series of query-based convolution kernels, which are applied in the segmentation stage to produce a series of masks. The final result is obtained by aggregating all masks. Our method harnesses the potential of the multi-modal features in the segmentation stage and aligns language features of different emphases with image features to achieve fine-grained text-to-pixel correlation. We surpass previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins. Additionally, our method is designed to be a generic plug-and-play module for cross-modality alignment in RIS task, making it easy to integrate with other RIS models for substantial performance improvements.
- Abstract(参考訳): 画像セグメンテーション(RIS)は、自然言語で言及されているオブジェクトを画像から分割することを目的としている。
主な課題は、テキスト・ツー・ピクセルの微粒な相関である。
以前の方法では、最終的な結果は固定されたカーネルとの畳み込みによって得られ、これは従来の画像分割と同様のパターンに従う。
これらの手法は、セグメンテーション段階における言語と視覚の特徴の明示的なアライメントを欠き、最適下相関をもたらす。
本稿では,視覚と言語の特徴を明確に整合させる手法であるEAVLを紹介する。
固定畳み込みカーネルとは対照的に、入力画像と文に基づいて動的畳み込みカーネルを用いてセグメント化段階で特徴を整列するビジョンランゲージ・アリグナーを導入する。
具体的には、言語表現の異なる相を表す複数のクエリを生成する。
これらのクエリは一連のクエリベースの畳み込みカーネルに変換され、セグメンテーション段階で一連のマスクを生成する。
最終結果は、すべてのマスクを集約することで得られる。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
従来のRefCOCO、RefCOCO+、G-Refの最先端手法を大きなマージンで上回っている。
さらに,本手法は,RISタスクにおけるクロスモーダルアライメントのための汎用的なプラグイン・アンド・プレイモジュールとして設計されており,他のRISモデルと統合しやすく,大幅な性能向上を実現している。
関連論文リスト
- Multi-Modal Mutual Attention and Iterative Interaction for Referring
Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。
本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文 参考訳(メタデータ) (2023-05-24T16:26:05Z) - Semantics-Aware Dynamic Localization and Refinement for Referring Image
Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。
そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。
比較すると,本手法はより汎用的で有効である。
論文 参考訳(メタデータ) (2023-03-11T08:42:40Z) - Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-16T13:38:22Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。
最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。
これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文 参考訳(メタデータ) (2021-05-12T13:01:44Z) - Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。
従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。
これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。
私たちのフレームワークはシンプルですが驚くほど効果的です。
論文 参考訳(メタデータ) (2021-03-30T12:25:27Z) - Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。
中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。
テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文 参考訳(メタデータ) (2021-01-28T11:35:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。