論文の概要: Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation
- arxiv url: http://arxiv.org/abs/2408.07539v1
- Date: Wed, 14 Aug 2024 13:17:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-15 13:14:29.193921
- Title: Cross-aware Early Fusion with Stage-divided Vision and Language Transformer Encoders for Referring Image Segmentation
- Title(参考訳): 画像分割参照のための段分割ビジョンと言語変換器エンコーダを用いた相互認識早期核融合
- Authors: Yubin Cho, Hyunwoo Yu, Suk-ju Kang,
- Abstract要約: セグメンテーションの参照は、自然言語表現に関連する対象オブジェクトをセグメンテーションすることを目的としている。
近年のモデルは、視覚エンコーダの中間段階における言語機能との早期融合に焦点を当てている。
本稿では,段階分割ビジョンと言語トランスフォーマーエンコーダを用いた新しいアーキテクチャであるクロスアウェアアーリーフュージョンを提案する。
- 参考スコア(独自算出の注目度): 15.676384275867965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Referring segmentation aims to segment a target object related to a natural language expression. Key challenges of this task are understanding the meaning of complex and ambiguous language expressions and determining the relevant regions in the image with multiple objects by referring to the expression. Recent models have focused on the early fusion with the language features at the intermediate stage of the vision encoder, but these approaches have a limitation that the language features cannot refer to the visual information. To address this issue, this paper proposes a novel architecture, Cross-aware early fusion with stage-divided Vision and Language Transformer encoders (CrossVLT), which allows both language and vision encoders to perform the early fusion for improving the ability of the cross-modal context modeling. Unlike previous methods, our method enables the vision and language features to refer to each other's information at each stage to mutually enhance the robustness of both encoders. Furthermore, unlike the conventional scheme that relies solely on the high-level features for the cross-modal alignment, we introduce a feature-based alignment scheme that enables the low-level to high-level features of the vision and language encoders to engage in the cross-modal alignment. By aligning the intermediate cross-modal features in all encoder stages, this scheme leads to effective cross-modal fusion. In this way, the proposed approach is simple but effective for referring image segmentation, and it outperforms the previous state-of-the-art methods on three public benchmarks.
- Abstract(参考訳): セグメンテーションの参照は、自然言語表現に関連する対象オブジェクトをセグメンテーションすることを目的としている。
このタスクの主な課題は、複雑であいまいな言語表現の意味を理解し、その表現を参照して、画像内の関連領域を複数のオブジェクトで決定することである。
近年のモデルでは、視覚エンコーダの中間段階における言語特徴との早期融合に焦点が当てられているが、これらの手法は、言語特徴が視覚情報を参照できないという制限がある。
そこで本研究では,言語と視覚の両方のエンコーダが,相互モーダルコンテキストモデリングの能力向上のために早期融合を行うことのできる,段階分割型視覚・言語トランスフォーマーエンコーダ(CrossVLT)を用いた新しいアーキテクチャを提案する。
従来の手法とは違って,各段階での視覚と言語の特徴を相互に参照し,両エンコーダの堅牢性を高める。
さらに,クロスモーダルアライメントの高レベルな特徴のみに依存する従来の方式とは異なり,視覚と言語エンコーダの低レベルから高レベルな特徴をクロスモーダルアライメントに関与させる機能ベースのアライメント方式を導入する。
すべてのエンコーダの段階で中間のクロスモーダル特徴を整列させることで、このスキームは効果的なクロスモーダル融合をもたらす。
このようにして、提案手法は単純だが画像分割を参照するのに有効であり、3つの公開ベンチマークにおいて従来の最先端手法よりも優れている。
関連論文リスト
- Fuse & Calibrate: A bi-directional Vision-Language Guided Framework for Referring Image Segmentation [8.383431263616105]
FCNetは,視覚と言語の両方が役割を担っている,双方向誘導融合方式のフレームワークである。
具体的には、視覚誘導方式を用いて初期マルチモーダル融合を行い、キービジョン情報に焦点を当てたマルチモーダル特徴を得る。
次に,言語誘導型キャリブレーションモジュールを提案し,これらのマルチモーダル特徴をキャリブレーションし,入力文の文脈を確実に理解する。
論文 参考訳(メタデータ) (2024-05-18T07:21:12Z) - Exploring Interactive Semantic Alignment for Efficient HOI Detection with Vision-language Model [3.3772986620114387]
ISA-HOIはCLIPからの知識を広範囲に活用し,視覚的特徴とテキスト的特徴の対話的意味論を整合させる。
本手法は, HICO-DETとV-COCOのベンチマークにおいて, トレーニングエポックがはるかに少なく, ゼロショット環境下での最先端性能を向上する。
論文 参考訳(メタデータ) (2024-04-19T07:24:32Z) - Synchronizing Vision and Language: Bidirectional Token-Masking
AutoEncoder for Referring Image Segmentation [26.262887028563163]
Referring Image (RIS)は、自然言語で表現されたターゲットオブジェクトをピクセルレベルのシーン内でセグメントすることを目的としている。
マスク付きオートエンコーダ(MAE)に触発された新しい双方向トークンマスキングオートエンコーダ(BTMAE)を提案する。
BTMAEは、画像と言語の両方に欠けている機能をトークンレベルで再構築することで、画像から言語、言語へのイメージのコンテキストを学習する。
論文 参考訳(メタデータ) (2023-11-29T07:33:38Z) - Modeling Motion with Multi-Modal Features for Text-Based Video
Segmentation [56.41614987789537]
テキストベースのビデオセグメンテーションは、対象のオブジェクトを記述文に基づいてビデオに分割することを目的としている。
本研究では, 正確なセグメンテーションを実現するために, 外観, 動き, 言語的特徴を融合, 整合させる手法を提案する。
論文 参考訳(メタデータ) (2022-04-06T02:42:33Z) - Single-Stream Multi-Level Alignment for Vision-Language Pretraining [103.09776737512078]
モーダルを複数のレベルで整列させる単一ストリームモデルを提案する。
対称的相互モダリティ再構築と擬似ラベル付きキーワード予測という2つの新しいタスクを用いてこれを実現する。
我々は、ゼロショット/ファインチューニングされた画像/テキスト検索、参照表現、VQAといった一連の視覚言語タスクにおいて、トップパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-27T21:16:10Z) - LAVT: Language-Aware Vision Transformer for Referring Image Segmentation [80.54244087314025]
視覚トランスフォーマーエンコーダネットワークにおいて,言語的特徴と視覚的特徴を早期に融合することにより,より優れたモーダルアライメントを実現することができることを示す。
提案手法は,RefCOCO,RefCO+,G-Refの従来の最先端手法を大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-12-04T04:53:35Z) - Encoder Fusion Network with Co-Attention Embedding for Referring Image
Segmentation [87.01669173673288]
本稿では,視覚的エンコーダをマルチモーダルな特徴学習ネットワークに変換するエンコーダ融合ネットワーク(EFN)を提案する。
EFNには、マルチモーダル機能の並列更新を実現するコアテンションメカニズムが組み込まれている。
4つのベンチマークデータセットによる実験結果から,提案手法がポストプロセッシングを伴わずに最先端の性能を実現することを示す。
論文 参考訳(メタデータ) (2021-05-05T02:27:25Z) - Enhanced Modality Transition for Image Captioning [51.72997126838352]
MTM(Modality Transition Module)を構築し、言語モデルに転送する前に視覚的機能をセマンティック表現に転送します。
トレーニング段階では、モダリティ遷移ネットワークは提案されたモダリティ損失によって最適化される。
提案手法の有効性を示すMS-COCOデータセットを用いて実験を行った。
論文 参考訳(メタデータ) (2021-02-23T07:20:12Z) - Referring Image Segmentation via Cross-Modal Progressive Comprehension [94.70482302324704]
画像セグメンテーションの参照は、自然言語表現で与えられた記述によく一致するエンティティの前景マスクをセグメンテーションすることを目的としている。
従来のアプローチでは、暗黙的な特徴相互作用と視覚的モダリティと言語的モダリティの融合を用いてこの問題に対処していた。
本稿では,この課題に効果的に対応するために,Cross-Modal Progressive (CMPC) モジュールと Text-Guided Feature Exchange (TGFE) モジュールを提案する。
論文 参考訳(メタデータ) (2020-10-01T16:02:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。