論文の概要: Learning Aligned Cross-modal Representations for Referring Image
Segmentation
- arxiv url: http://arxiv.org/abs/2301.06429v1
- Date: Mon, 16 Jan 2023 13:38:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-18 15:48:40.511855
- Title: Learning Aligned Cross-modal Representations for Referring Image
Segmentation
- Title(参考訳): 画像分割参照のための学習型クロスモーダル表現
- Authors: Zhichao Wei, Xiaohao Chen, Mingqiang Chen, Siyu Zhu
- Abstract要約: 本稿では、画像セグメンテーションを参照するためのエンドツーエンドフレームワークであるAlignFormerを紹介する。
我々のAlignFormerは、言語的特徴を中心埋め込みとみなし、中心埋め込みに基づいてピクセルグループ化によって関心領域を分割する。
画素テキストアライメントを実現するため,VLBA(Vision-Language Bidirectional Attention Module)を設計し,コントラスト学習を利用する。
- 参考スコア(独自算出の注目度): 10.130530501400079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Referring image segmentation aims to segment the image region of interest
according to the given language expression, which is a typical multi-modal
task. One of the critical challenges of this task is to align semantic
representations for different modalities including vision and language. To
achieve this, previous methods perform cross-modal interactions to update
visual features but ignore the role of integrating fine-grained visual features
into linguistic features. We present AlignFormer, an end-to-end framework for
referring image segmentation. Our AlignFormer views the linguistic feature as
the center embedding and segments the region of interest by pixels grouping
based on the center embedding. For achieving the pixel-text alignment, we
design a Vision-Language Bidirectional Attention module (VLBA) and resort
contrastive learning. Concretely, the VLBA enhances visual features by
propagating semantic text representations to each pixel and promotes linguistic
features by fusing fine-grained image features. Moreover, we introduce the
cross-modal instance contrastive loss to alleviate the influence of pixel
samples in ambiguous regions and improve the ability to align multi-modal
representations. Extensive experiments demonstrate that our AlignFormer
achieves a new state-of-the-art performance on RefCOCO, RefCOCO+, and RefCOCOg
by large margins.
- Abstract(参考訳): 参照画像分割は、典型的なマルチモーダルタスクである所定の言語表現に従って、関心のある画像領域を分割することを目的としている。
このタスクの重要な課題の1つは、視覚や言語を含む様々なモダリティのセマンティック表現を調整することである。
これを実現するために、以前の手法では、視覚的な特徴を更新するためにクロスモーダルな相互作用を行うが、きめ細かい視覚的特徴を言語的特徴に統合する役割を無視する。
本稿では,画像セグメンテーション参照のためのエンドツーエンドフレームワークであるalignedformerを提案する。
我々のAlignFormerは、言語的特徴を中心埋め込みとみなし、中心埋め込みに基づいてピクセルグループ化によって関心領域を分割する。
画素テキストアライメントを実現するため,VLBA(Vision-Language Bidirectional Attention Module)を設計し,コントラスト学習を利用する。
具体的には、VLBAは、各ピクセルに意味的テキスト表現を伝播することにより視覚的特徴を高め、きめ細かい画像特徴を融合させて言語的特徴を促進する。
さらに,不明瞭な領域における画素サンプルの影響を緩和し,マルチモーダル表現の整合性を向上させるために,クロスモーダル・インスタンス・コントラッシブ・ロスを導入する。
大規模な実験により、AlignFormerはRefCOCO、RefCOCO+、RefCOCOgにおける最先端のパフォーマンスを大きなマージンで達成した。
関連論文リスト
- Fine-tuning CLIP Text Encoders with Two-step Paraphrasing [83.3736789315201]
パラフレーズに対するCLIPモデルの表現を強化するための簡単な微調整手法を提案する。
ParaCLIPと呼ばれる我々のモデルは、様々なタスクでベースラインCLIPモデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-02-23T06:11:50Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Contrastive Grouping with Transformer for Referring Image Segmentation [23.276636282894582]
本稿では,Transformer Network (CGFormer) を用いたコントラストグルーピングというマスク分類フレームワークを提案する。
CGFormerはトークンベースのクエリとグルーピング戦略を通じて、オブジェクトレベルの情報を明示的にキャプチャする。
実験の結果,CGFormerはセグメンテーションと一般化の両設定において,最先端の手法よりも一貫して,大幅に優れていた。
論文 参考訳(メタデータ) (2023-09-02T20:53:42Z) - Beyond One-to-One: Rethinking the Referring Image Segmentation [117.53010476628029]
イメージセグメンテーションの参照は、自然言語表現によって参照される対象オブジェクトをセグメンテーションすることを目的としている。
2つのデコーダ分岐を含むDMMI(Dual Multi-Modal Interaction)ネットワークを提案する。
テキスト・ツー・イメージ・デコーダでは、テキストの埋め込みを利用して視覚的特徴を検索し、対応するターゲットをローカライズする。
一方、画像からテキストへのデコーダは、視覚的特徴に条件付けられた消去されたエンティティ・フレーズを再構成するために実装される。
論文 参考訳(メタデータ) (2023-08-26T11:39:22Z) - EAVL: Explicitly Align Vision and Language for Referring Image Segmentation [27.351940191216343]
入力画像と文に基づいて動的畳み込みカーネルを用いてセグメンテーション段階で特徴を整列するビジョン・ランゲージ・アリグナーを提案する。
本手法は, セグメンテーション段階におけるマルチモーダルな特徴の可能性を生かし, 異なるエムフェーズの言語特徴を画像特徴と整合させて, 微細なテキスト・ピクセル相関を実現する。
論文 参考訳(メタデータ) (2023-08-18T18:59:27Z) - Generating Images with Multimodal Language Models [78.6660334861137]
本稿では,凍結したテキストのみの大規模言語モデルを,事前学習した画像エンコーダとデコーダモデルで融合する手法を提案する。
本モデルでは,画像検索,新しい画像生成,マルチモーダル対話など,多モーダルな機能群を示す。
論文 参考訳(メタデータ) (2023-05-26T19:22:03Z) - MMNet: Multi-Mask Network for Referring Image Segmentation [6.462622145673872]
画像セグメンテーション(MMNet)のためのエンドツーエンドマルチマスクネットワークを提案する。
まず、画像と言語を組み合わせて、言語表現の異なる側面を表す複数のクエリを生成する。
最終的な結果は、すべてのマスクの重み付け和によって得られ、言語表現のランダム性を大幅に減少させる。
論文 参考訳(メタデータ) (2023-05-24T10:02:27Z) - Generalized Decoding for Pixel, Image, and Language [197.85760901840177]
画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。
X-Decoderは、すべてのタイプのイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。
論文 参考訳(メタデータ) (2022-12-21T18:58:41Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Vision-Language Transformer and Query Generation for Referring
Segmentation [39.01244764840372]
我々は参照セグメンテーションを直接的な注意問題として再検討する。
エンコーダとデコーダのアテンション機構を組み込んだネットワークを構築し、与えられた画像を言語表現で"クエリ"する。
我々のアプローチは軽量であり、3つの参照セグメンテーションデータセット上で新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-08-12T07:24:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。