論文の概要: SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion
- arxiv url: http://arxiv.org/abs/2409.17531v1
- Date: Thu, 26 Sep 2024 04:36:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-28 23:06:47.821803
- Title: SimVG: A Simple Framework for Visual Grounding with Decoupled Multi-modal Fusion
- Title(参考訳): SimVG: 分離したマルチモーダルフュージョンによる視覚的接地のためのシンプルなフレームワーク
- Authors: Ming Dai, Lingfeng Yang, Yihao Xu, Zhenhua Feng, Wankou Yang,
- Abstract要約: 視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワーク,SimVGを提案する。
- 参考スコア(独自算出の注目度): 20.016192628108158
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Visual grounding is a common vision task that involves grounding descriptive sentences to the corresponding regions of an image. Most existing methods use independent image-text encoding and apply complex hand-crafted modules or encoder-decoder architectures for modal interaction and query reasoning. However, their performance significantly drops when dealing with complex textual expressions. This is because the former paradigm only utilizes limited downstream data to fit the multi-modal feature fusion. Therefore, it is only effective when the textual expressions are relatively simple. In contrast, given the wide diversity of textual expressions and the uniqueness of downstream training data, the existing fusion module, which extracts multimodal content from a visual-linguistic context, has not been fully investigated. In this paper, we present a simple yet robust transformer-based framework, SimVG, for visual grounding. Specifically, we decouple visual-linguistic feature fusion from downstream tasks by leveraging existing multimodal pre-trained models and incorporating additional object tokens to facilitate deep integration of downstream and pre-training tasks. Furthermore, we design a dynamic weight-balance distillation method in the multi-branch synchronous learning process to enhance the representation capability of the simpler branch. This branch only consists of a lightweight MLP, which simplifies the structure and improves reasoning speed. Experiments on six widely used VG datasets, i.e., RefCOCO/+/g, ReferIt, Flickr30K, and GRefCOCO, demonstrate the superiority of SimVG. Finally, the proposed method not only achieves improvements in efficiency and convergence speed but also attains new state-of-the-art performance on these benchmarks. Codes and models will be available at \url{https://github.com/Dmmm1997/SimVG}.
- Abstract(参考訳): 視覚的接地は、画像の対応する領域に記述文を接地する、一般的な視覚課題である。
既存のほとんどの手法では、独立した画像テキストエンコーディングを使用し、複雑な手作りモジュールやエンコーダ・デコーダアーキテクチャを用いてモーダルインタラクションやクエリ推論を行っている。
しかし、複雑なテキスト表現を扱う場合、その性能は著しく低下する。
これは、前者のパラダイムがマルチモーダルな特徴融合に適合するために、限られた下流データのみを使用するためである。
したがって、文章表現が比較的単純である場合にのみ有効である。
対照的に、テキスト表現の多様性と下流トレーニングデータの独自性を考えると、視覚言語学的文脈からマルチモーダルコンテンツを抽出する既存の融合モジュールは、十分に研究されていない。
本稿では,ビジュアルグラウンドティングのためのシンプルだが頑健なトランスフォーマーベースのフレームワークSimVGを提案する。
具体的には、既存のマルチモーダル事前学習モデルを活用し、下流および事前学習タスクの深い統合を容易にするために追加のオブジェクトトークンを組み込むことにより、下流タスクと視覚言語的特徴融合を分離する。
さらに, より単純な分岐の表現能力を高めるために, 多分岐同期学習プロセスにおける動的重みバランス蒸留法を設計する。
このブランチは、構造を単純化し、推論速度を改善する軽量MLPのみで構成されている。
広く使われている6つのVGデータセット、すなわちRefCOCO/+/g、ReferIt、Flickr30K、GRefCOCOの実験は、SimVGの優位性を実証している。
最後に,提案手法は効率の向上と収束速度の向上だけでなく,これらのベンチマーク上での最先端性能の向上も達成している。
コードとモデルは \url{https://github.com/Dmmm1997/SimVG} で入手できる。
関連論文リスト
- MMFuser: Multimodal Multi-Layer Feature Fuser for Fine-Grained Vision-Language Understanding [39.68348330596116]
視覚変換器(ViTs)の深部・浅部機能を効率的に統合する,シンプルで効果的な多層機能フェーザであるモデル名を提案する。
具体的には、クエリとしてセマンティックに整合した深い機能を活用して、浅い機能から欠落した詳細を動的に抽出する。
modelnameachieveは、ビジュアル表現とベンチマークのパフォーマンスを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-15T17:55:22Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Text-Video Retrieval with Global-Local Semantic Consistent Learning [122.15339128463715]
我々は,シンプルで効果的なグローバル局所意味的一貫性学習(GLSCL)を提案する。
GLSCLは、テキストビデオ検索のためのモダリティをまたいだ潜在共有セマンティクスを活用する。
本手法はSOTAと同等の性能を実現し,計算コストの約220倍の高速化を実現している。
論文 参考訳(メタデータ) (2024-05-21T11:59:36Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - All in One: Exploring Unified Vision-Language Tracking with Multi-Modal
Alignment [23.486297020327257]
現在の視覚言語追跡フレームワークは、視覚特徴抽出器、言語特徴抽出器、融合モデルという3つの部分から構成されている。
本稿では,一貫したトランスフォーマーバックボーンを採用することで,共同特徴抽出とインタラクションを学習するオールインワンフレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-07T03:51:21Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Good Visual Guidance Makes A Better Extractor: Hierarchical Visual
Prefix for Multimodal Entity and Relation Extraction [88.6585431949086]
本稿では,視覚的な実体と関係抽出のための階層型ビジュアルプレフィックス融合NeTwork(HVPNeT)を提案する。
視覚的表現をプラグ可能な視覚的接頭辞とみなして, 誤りに敏感な予測決定のためのテキスト的表現を導出する。
3つのベンチマークデータセットの実験により,本手法の有効性が実証され,最先端の性能が得られた。
論文 参考訳(メタデータ) (2022-05-07T02:10:55Z) - Referring Transformer: A One-step Approach to Multi-task Visual
Grounding [45.42959940733406]
視覚的グラウンドタスクのための単純なワンステージマルチタスクフレームワークを提案する。
具体的には、2つのモダリティを視覚言語エンコーダに融合させるトランスフォーマーアーキテクチャを利用する。
我々のモデルは、コンテキスト情報とマルチタスクトレーニングから大きな恩恵を受けていることを示す。
論文 参考訳(メタデータ) (2021-06-06T10:53:39Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。