論文の概要: Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding
- arxiv url: http://arxiv.org/abs/2209.13959v2
- Date: Thu, 26 Oct 2023 05:41:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:23:19.155402
- Title: Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding
- Title(参考訳): 動的MDETR:ビジュアルグラウンド化のための動的マルチモーダルトランスフォーマーデコーダ
- Authors: Fengyuan Shi, Ruopeng Gao, Weilin Huang, Limin Wang
- Abstract要約: マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
- 参考スコア(独自算出の注目度): 27.568879624013576
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal transformer exhibits high capacity and flexibility to align image
and text for visual grounding. However, the existing encoder-only grounding
framework (e.g., TransVG) suffers from heavy computation due to the
self-attention operation with quadratic time complexity. To address this issue,
we present a new multimodal transformer architecture, coined as Dynamic
Mutilmodal DETR (Dynamic MDETR), by decoupling the whole grounding process into
encoding and decoding phases. The key observation is that there exists high
spatial redundancy in images. Thus, we devise a new dynamic multimodal
transformer decoder by exploiting this sparsity prior to speed up the visual
grounding process. Specifically, our dynamic decoder is composed of a 2D
adaptive sampling module and a text guided decoding module. The sampling module
aims to select these informative patches by predicting the offsets with respect
to a reference point, while the decoding module works for extracting the
grounded object information by performing cross attention between image
features and text features. These two modules are stacked alternatively to
gradually bridge the modality gap and iteratively refine the reference point of
grounded object, eventually realizing the objective of visual grounding.
Extensive experiments on five benchmarks demonstrate that our proposed Dynamic
MDETR achieves competitive trade-offs between computation and accuracy.
Notably, using only 9% feature points in the decoder, we can reduce ~44% GFLOPs
of the multimodal transformer, but still get higher accuracy than the
encoder-only counterpart. In addition, to verify its generalization ability and
scale up our Dynamic MDETR, we build the first one-stage CLIP empowered visual
grounding framework, and achieve the state-of-the-art performance on these
benchmarks.
- Abstract(参考訳): マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
しかし、既存のエンコーダのみの接地フレームワーク(例えばTransVG)は、2次時間複雑性を持つ自己アテンション演算のために重い計算に苦しむ。
この問題を解決するために,動的MDETR(Dynamic Mutilmodal DETR)と呼ばれる新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
重要な観察は、画像に高い空間冗長性が存在することである。
そこで我々は,視覚的グラウンド処理の高速化に先立って,この空間を利用して動的マルチモーダルトランスフォーマーデコーダを考案した。
具体的には,動的デコーダは2次元適応サンプリングモジュールとテキスト案内復号モジュールから構成される。
サンプリングモジュールは、基準点に関するオフセットを予測し、これらの情報パッチを選択することを目的としており、デコードモジュールは、画像特徴とテキスト特徴との交差注意を行うことで、接地対象情報を抽出する。
これら2つのモジュールは、徐々にモダリティギャップをブリッジし、接地対象の基準点を反復的に洗練するために積み重ねられ、最終的に視覚的接地という目的を実現する。
5つのベンチマークにおいて,提案した動的MDETRが計算と精度の競合的なトレードオフを達成できることを示す。
特に、デコーダの9%の機能点しか使用していないため、マルチモーダルトランスの約44%のGFLOPを削減できるが、エンコーダのみよりも精度が高い。
さらに、その一般化能力を検証し、Dynamic MDETRをスケールアップするために、最初のワンステージのCLIP強化ビジュアルグラウンドフレームワークを構築し、これらのベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Minimalist and High-Performance Semantic Segmentation with Plain Vision
Transformers [10.72362704573323]
トランス層に加えて,3$Times$3の畳み込みのみで構成されるモデルであるPlainSegを導入する。
また,階層的特徴の活用を可能にするPlainSeg-Hierを提案する。
論文 参考訳(メタデータ) (2023-10-19T14:01:40Z) - Dynamic Grained Encoder for Vision Transformers [150.02797954201424]
本稿では,自然画像の空間的冗長性を生かした視覚変換器のスパースクエリを提案する。
本研究では,各空間領域に適切なクエリ数を適応的に割り当てる動的変換器を提案する。
我々のエンコーダにより、最先端のビジョン変換器は、画像分類において同等の性能を維持しながら、計算複雑性を40%から60%削減できる。
論文 参考訳(メタデータ) (2023-01-10T07:55:29Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - Spatial-Temporal Transformer for Dynamic Scene Graph Generation [34.190733855032065]
本研究では,(1)入力フレームを用いてフレーム内の視覚的関係を抽出する空間エンコーダと,(2)空間エンコーダの出力を入力とする時間デコーダの2つのコアモジュールからなるニューラルネットワークを提案する。
我々の方法はベンチマークデータセットAction Genome(AG)で検証されている。
論文 参考訳(メタデータ) (2021-07-26T16:30:30Z) - MODETR: Moving Object Detection with Transformers [2.4366811507669124]
移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
論文 参考訳(メタデータ) (2021-06-21T21:56:46Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspective
with Transformers [149.78470371525754]
セマンティックセグメンテーションをシーケンスからシーケンスへの予測タスクとして扱う。
具体的には、イメージをパッチのシーケンスとしてエンコードするために純粋なトランスをデプロイします。
トランスのすべての層でモデル化されたグローバルコンテキストにより、このエンコーダは、SETR(SEgmentation TRansformer)と呼ばれる強力なセグメンテーションモデルを提供するための単純なデコーダと組み合わせることができる。
SETRはADE20K(50.28% mIoU)、Pascal Context(55.83% mIoU)、およびCityscapesの競争力のある結果に関する最新技術を達成している。
論文 参考訳(メタデータ) (2020-12-31T18:55:57Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。