論文の概要: TransVG: End-to-End Visual Grounding with Transformers
- arxiv url: http://arxiv.org/abs/2104.08541v1
- Date: Sat, 17 Apr 2021 13:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 10:16:21.188033
- Title: TransVG: End-to-End Visual Grounding with Transformers
- Title(参考訳): TransVG: トランスフォーマーによるエンドツーエンドの視覚グラウンド
- Authors: Jiajun Deng, Zhengyuan Yang, Tianlang Chen, Wengang Zhou, and Houqiang
Li
- Abstract要約: 本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
- 参考スコア(独自算出の注目度): 102.11922622103613
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present a neat yet effective transformer-based framework
for visual grounding, namely TransVG, to address the task of grounding a
language query to the corresponding region onto an image. The state-of-the-art
methods, including two-stage or one-stage ones, rely on a complex module with
manually-designed mechanisms to perform the query reasoning and multi-modal
fusion. However, the involvement of certain mechanisms in fusion module design,
such as query decomposition and image scene graph, makes the models easily
overfit to datasets with specific scenarios, and limits the plenitudinous
interaction between the visual-linguistic context. To avoid this caveat, we
propose to establish the multi-modal correspondence by leveraging transformers,
and empirically show that the complex fusion modules (e.g., modular attention
network, dynamic graph, and multi-modal tree) can be replaced by a simple stack
of transformer encoder layers with higher performance. Moreover, we
re-formulate the visual grounding as a direct coordinates regression problem
and avoid making predictions out of a set of candidates (i.e., region proposals
or anchor boxes). Extensive experiments are conducted on five widely used
datasets, and a series of state-of-the-art records are set by our TransVG. We
build the benchmark of transformer-based visual grounding framework and will
make our code available to the public.
- Abstract(参考訳): 本稿では,言語クエリを画像上にグラウンド化する作業,すなわちTransVGという視覚的グラウンド化のための,巧妙で効果的なトランスフォーマーベースのフレームワークを提案する。
2段階または1段階を含む最先端の手法は、クエリ推論とマルチモーダル融合を実行するために手動で設計されたメカニズムを持つ複雑なモジュールに依存している。
しかし、クエリ分解や画像シーングラフといった融合モジュール設計における特定のメカニズムの関与により、モデルが特定のシナリオでデータセットに過剰に適合し、視覚的言語的コンテキスト間の相性が制限される。
そこで本研究では,トランスフォーマティブを利用してマルチモーダル対応を確立することを提案し,複雑な融合モジュール(モジュラーアテンションネットワーク,動的グラフ,マルチモーダルツリーなど)を,より高性能な簡易なトランスフォーマエンコーダ層に置き換えることができることを示す。
さらに,視覚接地を直接座標回帰問題として再定式化し,候補群(すなわち領域提案やアンカーボックス)から予測することを避ける。
広範に使用される5つのデータセットについて広範な実験を行い、transvgによって一連の最新記録をセットする。
トランスフォーマーベースのビジュアルグラウンドフレームワークのベンチマークを構築し、コードを一般公開します。
関連論文リスト
- Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - ModeT: Learning Deformable Image Registration via Motion Decomposition
Transformer [7.629385629884155]
本稿では,複数のモーダルを明示的にモデル化する新しい動作分解変換器 (ModeT) を提案する。
提案手法は,現状の登録ネットワークやトランスフォーマーよりも優れている。
論文 参考訳(メタデータ) (2023-06-09T06:00:05Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Hierarchical Local-Global Transformer for Temporal Sentence Grounding [58.247592985849124]
本稿では,時間文グラウンドリングのマルチメディア問題について検討する。
与えられた文問合せに従って、トリミングされていないビデオ内の特定のビデオセグメントを正確に決定することを目的としている。
論文 参考訳(メタデータ) (2022-08-31T14:16:56Z) - TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer [188.00681648113223]
視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
論文 参考訳(メタデータ) (2022-06-14T06:27:38Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。