論文の概要: Linguistic Query-Guided Mask Generation for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2301.06429v3
- Date: Wed, 22 Mar 2023 12:01:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 00:30:49.220017
- Title: Linguistic Query-Guided Mask Generation for Referring Image Segmentation
- Title(参考訳): 画像セグメンテーション参照のための言語クエリ誘導マスク生成
- Authors: Zhichao Wei, Xiaohao Chen, Mingqiang Chen, Siyu Zhu
- Abstract要約: 画像セグメンテーションの参照は、与えられた言語表現に従って、興味のある画像領域をセグメンテーションすることを目的としている。
本稿では,言語クエリ誘導マスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 10.130530501400079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment the image region of interest
according to the given language expression, which is a typical multi-modal
task. Existing methods either adopt the pixel classification-based or the
learnable query-based framework for mask generation, both of which are
insufficient to deal with various text-image pairs with a fix number of
parametric prototypes. In this work, we propose an end-to-end framework built
on transformer to perform Linguistic query-Guided mask generation, dubbed
LGFormer. It views the linguistic features as query to generate a specialized
prototype for arbitrary input image-text pair, thus generating more consistent
segmentation results. Moreover, we design several cross-modal interaction
modules (\eg, vision-language bidirectional attention module, VLBA) in both
encoder and decoder to achieve better cross-modal alignment.
- Abstract(参考訳): 参照画像分割は、典型的なマルチモーダルタスクである所定の言語表現に従って、関心のある画像領域を分割することを目的としている。
既存の方法は、ピクセル分類に基づくか、マスク生成のための学習可能なクエリベースのフレームワークを採用しており、どちらもパラメトリックプロトタイプの固定数で様々なテキストイメージペアを扱うには不十分である。
本稿では,LGFormerと呼ばれる言語クエリガイドマスク生成を行うために,トランスフォーマー上に構築されたエンドツーエンドフレームワークを提案する。
任意の入力画像-テキストペアの特別なプロトタイプを生成するために、言語的特徴をクエリとして捉え、より一貫性のあるセグメンテーション結果を生成する。
さらに,エンコーダとデコーダの両方に複数の相互モーダル相互作用モジュール(VLBA)を設計し,より優れた相互モーダルアライメントを実現する。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。