Fugu-MT 論文翻訳(概要): EAVL: Explicitly Align Vision and Language for Referring Image Segmentation

論文の概要: EAVL: Explicitly Align Vision and Language for Referring Image Segmentation

arxiv url: http://arxiv.org/abs/2308.09779v2
Date: Tue, 22 Aug 2023 00:27:55 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-23 10:47:38.405683
Title: EAVL: Explicitly Align Vision and Language for Referring Image Segmentation
Title（参考訳）: EAVL:画像セグメンテーションを参照するための視覚と言語
Authors: Yichen Yan, Xingjian He, Wenxuan Wang, Sihan Chen, Jing Liu
Abstract要約: 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。画像参照のための視覚と言語を明示的に調整する(EAVL)。
参考スコア（独自算出の注目度）: 29.344418371301295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Referring image segmentation aims to segment an object mentioned in natural language from an image. A main challenge is language-related localization, which means locating the object with the relevant language. Previous approaches mainly focus on the fusion of vision and language features without fully addressing language-related localization. In previous approaches, fused vision-language features are directly fed into a decoder and pass through a convolution with a fixed kernel to obtain the result, which follows a similar pattern as traditional image segmentation. This approach does not explicitly align language and vision features in the segmentation stage, resulting in a suboptimal language-related localization. Different from previous methods, we propose Explicitly Align the Vision and Language for Referring Image Segmentation (EAVL). Instead of using a fixed convolution kernel, we propose an Aligner which explicitly aligns the vision and language features in the segmentation stage. Specifically, a series of unfixed convolution kernels are generated based on the input l, and then are use to explicitly align the vision and language features. To achieve this, We generate multiple queries that represent different emphases of the language expression. These queries are transformed into a series of query-based convolution kernels. Then, we utilize these kernels to do convolutions in the segmentation stage and obtain a series of segmentation masks. The final result is obtained through the aggregation of all masks. Our method can not only fuse vision and language features effectively but also exploit their potential in the segmentation stage. And most importantly, we explicitly align language features of different emphases with the image features to achieve language-related localization. Our method surpasses previous state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins.
Abstract（参考訳）: 画像セグメント化の参照は、自然言語で言及されたオブジェクトを画像からセグメントすることを目的としている。主な課題は言語に関連したローカライゼーションである。従来のアプローチは主に、言語関連のローカライゼーションを完全に解決することなく、視覚と言語機能の融合に焦点を当てていた。従来のアプローチでは、融合した視覚言語機能はデコーダに直接入力され、固定されたカーネルとの畳み込みを通過して結果を得る。このアプローチは、セグメンテーション段階における言語と視覚の特徴を明示的に調整するものではない。従来の手法とは違って,画像セグメンテーション(EAVL)のための視覚と言語を明示的にアライメントする手法を提案する。固定畳み込みカーネルの代わりに,セグメント化段階における視覚と言語の特徴を明確に整列する Aligner を提案する。具体的には、一連の固定されていない畳み込みカーネルが入力lに基づいて生成され、視覚と言語の特徴を明示的に整列するために使用される。これを実現するために、言語表現の異なる相を表す複数のクエリを生成する。これらのクエリは、一連のクエリベースの畳み込みカーネルに変換される。次に,これらのカーネルを用いてセグメンテーション段階の畳み込みを行い,一連のセグメンテーションマスクを得る。最終結果はすべてのマスクの集合によって得られる。本手法は視覚と言語機能を効果的に融合できるだけでなく,セグメンテーション段階でその潜在能力を活用できる。そして、最も重要なことは、異なる位相の言語特徴を画像特徴と明示的に整合させ、言語関連ローカライゼーションを実現することである。提案手法は,RefCOCO,RefCOCO+,G-Refにおける従来の最先端手法を大きなマージンで上回る。

関連論文リスト

AMLRIS: Alignment-aware Masked Learning for Referring Image Segmentation [28.871630416634883]
Referring Image introduces (RIS)は、自然言語表現によって識別された画像にオブジェクトをセグメントすることを目的としている。本稿では,AML(Alignment-Aware Masked Learning)を提案する。このアプローチにより、RefCOCOデータセットの最先端のパフォーマンスが向上し、さまざまな説明やシナリオに対する堅牢性も向上する。
論文参考訳（メタデータ） (2026-02-26T08:29:04Z)
ARGenSeg: Image Segmentation with Autoregressive Image Generation Model [46.837184955843355]
本稿では,ARGenSeg(AutoRegressive Generation-based paradigm for image)を提案する。提案手法は,複数のセグメンテーションデータセットに対する従来手法を超越し,推論速度を著しく向上させる。
論文参考訳（メタデータ） (2025-10-23T17:58:26Z)
Text4Seg++: Advancing Image Segmentation via Generative Language Modeling [52.07442359419673]
画像分割をテキスト生成問題として用いた新しいテキスト・アズ・マスクパラダイムを提案する。鍵となる革新はセグメンテーションマスクの新しいテキスト表現であるセグメンテーション記述子である。自然およびリモートセンシングデータセットの実験は、Text4Seg++が最先端モデルよりも一貫して優れていることを示している。
論文参考訳（メタデータ） (2025-09-08T04:07:14Z)
GS: Generative Segmentation via Label Diffusion [59.380173266566715]
言語駆動のイメージセグメンテーションは、自然言語表現に対応する画像の領域を分割するモデルを必要とする、視覚言語理解の基本的なタスクである。近年の拡散モデルがこの領域に導入されているが、既存のアプローチは画像中心のままである。生成タスクとしてセグメンテーション自体を定式化する新しいフレームワークであるGS(Generative Label)を提案する。実験の結果,GSは既存の差別的・拡散的手法を著しく上回り,言語駆動セグメンテーションのための新たな最先端技術が確立された。
論文参考訳（メタデータ） (2025-08-27T16:28:15Z)
Multi-Modal Mutual Attention and Iterative Interaction for Referring Image Segmentation [49.6153714376745]
本稿では,自然言語表現によって指定された対象のマスクを生成することを目的とした画像分割の参照問題に対処する。本稿では,2つの入力モダリティから情報を取り出すためのマルチモーダル・ミューチュアル・アテンション(mathrmM3Att$)とマルチモーダル・ミューチュアル・デコーダ(mathrmM3Dec$)を提案する。
論文参考訳（メタデータ） (2023-05-24T16:26:05Z)
Semantics-Aware Dynamic Localization and Refinement for Referring Image Segmentation [102.25240608024063]
画像の参照は、言語表現からのイメージセグメントを参照する。そこで我々は,局所化中心からセグメンテーション言語へ移行するアルゴリズムを開発した。比較すると,本手法はより汎用的で有効である。
論文参考訳（メタデータ） (2023-03-11T08:42:40Z)
Linguistic Query-Guided Mask Generation for Referring Image Segmentation [10.130530501400079]
画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
論文参考訳（メタデータ） (2023-01-16T13:38:22Z)
CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。 CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文参考訳（メタデータ） (2021-11-30T07:29:08Z)
Segmenter: Transformer for Semantic Segmentation [79.9887988699159]
セマンティックセグメンテーションのためのトランスフォーマーモデルであるSegmenterを紹介します。最近のViT(Vision Transformer)上に構築し,セマンティックセグメンテーションに拡張する。これは、挑戦的なADE20Kデータセット上でのアートの状態を上回り、Pascal ContextとCityscapesでオンパーを実行する。
論文参考訳（メタデータ） (2021-05-12T13:01:44Z)
Locate then Segment: A Strong Pipeline for Referring Image Segmentation [73.19139431806853]
参照画像セグメンテーションは、自然言語表現によって参照されるオブジェクトをセグメンテーションすることを目的とする。従来の方法は、視覚言語機能を融合させ、最終的なセグメンテーションマスクを直接生成するための暗黙的および反復的な相互作用メカニズムの設計に焦点を当てています。これらの問題に取り組むための「Then-Then-Segment」スキームを紹介します。私たちのフレームワークはシンプルですが驚くほど効果的です。
論文参考訳（メタデータ） (2021-03-30T12:25:27Z)
Exploring Cross-Image Pixel Contrast for Semantic Segmentation [130.22216825377618]
完全教師付きセッティングにおけるセマンティックセグメンテーションのための画素単位のコントラストフレームワークを提案する。中心となる考え方は、同じセマンティッククラスに属するピクセルの埋め込みを、異なるクラスの埋め込みよりもよく似ているように強制することである。テスト中に余分なオーバーヘッドを伴わずに既存のセグメンテーションフレームワークに懸命に組み込むことができる。
論文参考訳（メタデータ） (2021-01-28T11:35:32Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。