論文の概要: SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding
- arxiv url: http://arxiv.org/abs/2502.16786v1
- Date: Mon, 24 Feb 2025 02:41:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:10.362688
- Title: SwimVG: Step-wise Multimodal Fusion and Adaption for Visual Grounding
- Title(参考訳): SwimVG: ステップワイドマルチモーダルフュージョンと視覚グラウンドへの適応
- Authors: Liangtao Shi, Ting Liu, Xiantao Hu, Yue Hu, Quanjun Yin, Richang Hong,
- Abstract要約: 視覚的なグラウンドニングは、画像領域を自然言語でグラウンドすることを目的としており、それはクロスモーダルアライメントに大きく依存している。
SwimVGは、視覚的な接地のためのステップワイズマルチモーダルプロンプト(Swip)とクロスモーダルインタラクティブアダプタ(CIA)を提案する。
SwipとCIAはどちらもパラメータ効率のパラダイムであり、徐々に浅い層から深い層へとクロスモーダルな特徴を融合させていく。
- 参考スコア(独自算出の注目度): 37.27111432020955
- License:
- Abstract: Visual grounding aims to ground an image region through natural language, which heavily relies on cross-modal alignment. Most existing methods transfer visual/linguistic knowledge separately by fully fine-tuning uni-modal pre-trained models, followed by a simple stack of visual-language transformers for multimodal fusion. However, these approaches not only limit adequate interaction between visual and linguistic contexts, but also incur significant computational costs. Therefore, to address these issues, we explore a step-wise multimodal fusion and adaption framework, namely SwimVG. Specifically, SwimVG proposes step-wise multimodal prompts (Swip) and cross-modal interactive adapters (CIA) for visual grounding, replacing the cumbersome transformer stacks for multimodal fusion. Swip can improve {the} alignment between the vision and language representations step by step, in a token-level fusion manner. In addition, weight-level CIA further promotes multimodal fusion by cross-modal interaction. Swip and CIA are both parameter-efficient paradigms, and they fuse the cross-modal features from shallow to deep layers gradually. Experimental results on four widely-used benchmarks demonstrate that SwimVG achieves remarkable abilities and considerable benefits in terms of efficiency. Our code is available at https://github.com/liuting20/SwimVG.
- Abstract(参考訳): 視覚的なグラウンドニングは、画像領域を自然言語でグラウンドすることを目的としており、それはクロスモーダルアライメントに大きく依存している。
既存のほとんどの手法は、完全に微調整されたユニモーダル事前訓練されたモデルによって視覚的/言語的な知識を別々に伝達し、続いて、多モーダル融合のための単純な視覚言語変換器のスタックが続く。
しかし、これらのアプローチは、視覚的コンテキストと言語的コンテキストの適切な相互作用を制限するだけでなく、計算コストを大幅に削減する。
そこで我々は,これらの問題に対処するため,段階的にマルチモーダル融合・適応フレームワーク,すなわちSwimVGについて検討する。
具体的には、スイムVGは、視覚的な接地のためのステップワイズマルチモーダルプロンプト(Swip)とクロスモーダルインタラクティブアダプタ(CIA)を提案し、マルチモーダル融合のために煩雑なトランスフォーマースタックを置き換える。
Swipは、トークンレベルの融合方法で、視覚と言語表現の間の {the} アライメントを段階的に改善することができる。
さらに、ウェイトレベルCIAは、クロスモーダル相互作用によるマルチモーダル融合をさらに促進する。
SwipとCIAはどちらもパラメータ効率のパラダイムであり、徐々に浅い層から深い層へとクロスモーダルな特徴を融合させていく。
広く使われている4つのベンチマークの実験結果から、SwimVGは優れた能力と効率の面でかなりの利点を享受できることが示された。
私たちのコードはhttps://github.com/liuting20/SwimVG.comで利用可能です。
関連論文リスト
- StitchFusion: Weaving Any Visual Modalities to Enhance Multimodal Semantic Segmentation [63.31007867379312]
我々は,大規模な事前学習モデルを直接エンコーダや機能フューザとして統合するフレームワークであるStitchFusionを提案する。
我々は,エンコーディング中に多方向アダプタモジュール(MultiAdapter)を導入し,モーダル間情報転送を実現する。
本モデルは,最小限の追加パラメータを持つ4つのマルチモーダルセグメンテーションデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2024-08-02T15:41:16Z) - GeminiFusion: Efficient Pixel-wise Multimodal Fusion for Vision Transformer [44.44603063754173]
クロスモーダル変換器は、様々なモダリティを効果的に統合することにより、様々な視覚タスクにおいて優位性を証明している。
本稿では,画素単位の融合手法であるGeminiFusionを提案する。
我々は,層間相互作用を適応的に制御するために層適応雑音を用い,調和した融合プロセスを実現する。
論文 参考訳(メタデータ) (2024-06-03T11:24:15Z) - U3M: Unbiased Multiscale Modal Fusion Model for Multimodal Semantic Segmentation [63.31007867379312]
U3M: An Unbiased Multiscale Modal Fusion Model for Multimodal Semanticsを紹介する。
我々は,グローバルな特徴とローカルな特徴の効果的な抽出と統合を保証するために,複数のスケールで機能融合を採用している。
実験により,本手法は複数のデータセットにまたがって優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-05-24T08:58:48Z) - HiVG: Hierarchical Multimodal Fine-grained Modulation for Visual Grounding [80.85164509232261]
HiVGは多層適応型クロスモーダルブリッジと階層型マルチモーダル低ランク適応(HiLoRA)パラダイムで構成されている。
HiLoRAは、階層的な方法で、クロスモーダルな特徴を浅い層から深い層に適応させることによって、知覚エラーの蓄積を防止する。
論文 参考訳(メタデータ) (2024-04-20T14:57:31Z) - DeepSpeed-VisualChat: Multi-Round Multi-Image Interleave Chat via
Multi-Modal Causal Attention [55.2825684201129]
DeepSpeed-VisualChatは、マルチモーダル機能を組み込むことで、LLM(Large Language Models)を最適化するように設計されている。
筆者らのフレームワークは,(1)マルチラウンド・マルチイメージ対話のオープンソースサポート,(2)革新的なマルチモーダル因果注意機構の導入,(3)既存のデータセットにデータブレンディング技術を活用してシームレスな対話を実現すること,などが特徴である。
論文 参考訳(メタデータ) (2023-09-25T17:53:29Z) - Improving Cross-modal Alignment for Text-Guided Image Inpainting [36.1319565907582]
テキスト誘導画像塗装(TGII)は、損傷した画像中の与えられたテキストに基づいて、行方不明領域を復元することを目的としている。
クロスモーダルアライメントを改善することで,TGIIの新たなモデルを提案する。
我々のモデルは、他の強力な競合相手と比較して最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-01-26T19:18:27Z) - Multimodal Token Fusion for Vision Transformers [54.81107795090239]
変換器を用いた視覚タスクのためのマルチモーダルトークン融合法(TokenFusion)を提案する。
複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。
TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。
論文 参考訳(メタデータ) (2022-04-19T07:47:50Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。