論文の概要: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2112.02244v1
- Date: Sat, 4 Dec 2021 04:53:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-07 16:41:27.400850
- Title: LAVT: Language-Aware Vision Transformer for Referring Image Segmentation
- Title(参考訳): LAVT:画像セグメント参照のための言語対応視覚変換器
- Authors: Zhao Yang, Jiaqi Wang, Yansong Tang, Kai Chen, Hengshuang Zhao, Philip
H.S. Torr
- Abstract要約: 視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
- 参考スコア(独自算出の注目度): 80.54244087314025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Referring image segmentation is a fundamental vision-language task that aims
to segment out an object referred to by a natural language expression from an
image. One of the key challenges behind this task is leveraging the referring
expression for highlighting relevant positions in the image. A paradigm for
tackling this problem is to leverage a powerful vision-language ("cross-modal")
decoder to fuse features independently extracted from a vision encoder and a
language encoder. Recent methods have made remarkable advancements in this
paradigm by exploiting Transformers as cross-modal decoders, concurrent to the
Transformer's overwhelming success in many other vision-language tasks.
Adopting a different approach in this work, we show that significantly better
cross-modal alignments can be achieved through the early fusion of linguistic
and visual features in intermediate layers of a vision Transformer encoder
network. By conducting cross-modal feature fusion in the visual feature
encoding stage, we can leverage the well-proven correlation modeling power of a
Transformer encoder for excavating helpful multi-modal context. This way,
accurate segmentation results are readily harvested with a light-weight mask
predictor. Without bells and whistles, our method surpasses the previous
state-of-the-art methods on RefCOCO, RefCOCO+, and G-Ref by large margins.
- Abstract(参考訳): 画像セグメント化の参照は、画像から自然言語表現によって参照されるオブジェクトを分割することを目的とした基本的な視覚言語タスクである。
このタスクの鍵となる課題の1つは、画像内の関連する位置を強調するために参照式を活用することである。
この問題に取り組むためのパラダイムは、視覚エンコーダと言語エンコーダから独立に抽出された特徴を融合するために強力な視覚言語デコーダ(クロスモーダル)を活用することである。
近年の手法では、トランスフォーマーをクロスモーダルデコーダとして活用し、他の視覚言語タスクにおけるトランスフォーマーの圧倒的な成功と並行して、このパラダイムにおいて顕著な進歩を遂げている。
本研究では,視覚トランスコーダネットワークの中間層における言語的特徴と視覚的特徴の早期融合により,より優れたクロスモーダルアライメントを実現することができることを示す。
視覚特徴エンコード段階でクロスモーダル特徴融合を行うことにより,トランスコーダの十分な相関モデリング能力を利用して,有用なマルチモーダルコンテキストを抽出できる。
これにより、軽量マスク予測器で正確なセグメンテーション結果を容易に得ることができる。
RefCOCO, RefCOCO+, G-Refではベルとホイッスルがなければ, 従来の最先端手法をはるかに上回っている。
関連論文リスト
- Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation [15.676384275867965]
セグメンテーションの参照は、自然言語表現に関連する対象オブジェクトをセグメンテーションすることを目的としている。
近年のモデルは、視覚エンコーダの中間段階における言語機能との早期融合に焦点を当てている。
本稿では,段階分割ビジョンと言語トランスフォーマーエンコーダを用いた新しいアーキテクチャであるクロスアウェアアーリーフュージョンを提案する。
論文 参考訳(メタデータ) (2024-08-14T13:17:41Z) - An Efficient and Effective Transformer Decoder-Based Framework for Multi-Task Visual Grounding [17.855998090452058]
トランスフォーマーデコーダをベースとした,効率的なマルチタスクビジュアルグラウンドティングフレームワークを提案する。
言語的側面では、言語的特徴がメモリとして入力され、視覚的特徴がクエリとして入力される、視覚的特徴と言語的特徴を融合するためにTransformer Decoderを使用します。
視覚的側面では、注目スコアに基づく背景視覚トークンを排除し、パラメータフリーで計算を削減できる手法を導入する。
論文 参考訳(メタデータ) (2024-08-02T09:01:05Z) - MDS-ViTNet: Improving saliency prediction for Eye-Tracking with Vision Transformer [0.0]
MDS-ViTNet(Multi Decoder Saliency by Vision Transformer Network)を提案する。
このアプローチは、マーケティング、医療、ロボティクス、小売など、さまざまな分野において大きな可能性を秘めている。
我々の訓練されたモデルは、いくつかのベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2024-05-29T20:28:04Z) - Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Learning Explicit Object-Centric Representations with Vision
Transformers [81.38804205212425]
我々は、マスク付き自動符号化の自己超越タスクを構築し、トランスフォーマーを用いたオブジェクト中心表現学習の有効性を探求する。
複数のマルチオブジェクト・ベンチマークのセグメンテーション・メトリクスによって測定された単純なシーンを効率的に分解できることを示す。
論文 参考訳(メタデータ) (2022-10-25T16:39:49Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - Fully Transformer Networks for Semantic ImageSegmentation [26.037770622551882]
エンコーダデコーダをベースとしたFully Transformer Networks (FTN) を用いた意味的イメージセグメンテーションのための新しいフレームワークについて検討する。
階層的特徴を段階的に学習するエンコーダとして、標準視覚変換器(ViT)の計算複雑性を低減しつつ、ピラミッド群変換器(PGT)を提案する。
次に,セマンティックイメージセグメンテーションのためのPGTエンコーダの複数レベルから意味レベルと空間レベル情報を融合する特徴ピラミッドトランス (FPT) を提案する。
論文 参考訳(メタデータ) (2021-06-08T05:15:28Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。