論文の概要: TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer
- arxiv url: http://arxiv.org/abs/2206.06619v1
- Date: Tue, 14 Jun 2022 06:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-15 14:32:20.170029
- Title: TransVG++: End-to-End Visual Grounding with Language Conditioned Vision
Transformer
- Title(参考訳): TransVG++: 言語条件付き視覚変換器によるエンドツーエンドの視覚グラウンド
- Authors: Jiajun Deng, Zhengyuan Yang, Daqing Liu, Tianlang Chen, Wengang Zhou,
Yanyong Zhang, Houqiang Li and Wanli Ouyang
- Abstract要約: 視覚的なグラウンド化のための、巧妙で効果的なTransformerベースのフレームワークについて検討する。
TransVGはトランスフォーマーによるマルチモーダル対応を確立し、ボックス座標を直接回帰することで参照領域をローカライズする。
視覚特徴符号化にViT(Vision Transformer)を活用することで、我々のフレームワークを純粋にトランスフォーマーベースにアップグレードする。
- 参考スコア(独自算出の注目度): 188.00681648113223
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we explore neat yet effective Transformer-based frameworks for
visual grounding. The previous methods generally address the core problem of
visual grounding, i.e., multi-modal fusion and reasoning, with
manually-designed mechanisms. Such heuristic designs are not only complicated
but also make models easily overfit specific data distributions. To avoid this,
we first propose TransVG, which establishes multi-modal correspondences by
Transformers and localizes referred regions by directly regressing box
coordinates. We empirically show that complicated fusion modules can be
replaced by a simple stack of Transformer encoder layers with higher
performance. However, the core fusion Transformer in TransVG is stand-alone
against uni-modal encoders, and thus should be trained from scratch on limited
visual grounding data, which makes it hard to be optimized and leads to
sub-optimal performance. To this end, we further introduce TransVG++ to make
two-fold improvements. For one thing, we upgrade our framework to a purely
Transformer-based one by leveraging Vision Transformer (ViT) for vision feature
encoding. For another, we devise Language Conditioned Vision Transformer that
removes external fusion modules and reuses the uni-modal ViT for
vision-language fusion at the intermediate layers. We conduct extensive
experiments on five prevalent datasets, and report a series of state-of-the-art
records.
- Abstract(参考訳): 本研究では,視覚グランド化のためのトランスフォーマーフレームワークについて検討する。
従来の手法は一般に視覚的接地、すなわち多モード融合と推論のコア問題に手作業で設計したメカニズムで対処する。
このようなヒューリスティックな設計は複雑なだけでなく、モデルを特定のデータ分布に簡単に適合させる。
そこで我々はまず,トランスフォーマーによるマルチモーダル対応を確立し,ボックス座標を直接回帰することで参照領域をローカライズするTransVGを提案する。
複雑な融合モジュールを、より高性能なトランスフォーマーエンコーダ層の単純なスタックに置き換えることができることを実証的に示す。
しかし、TransVGの核融合トランスフォーマーは、ユニモーダルエンコーダに対して単独であり、限られた視覚的グラウンドデータに基づいてゼロからトレーニングされるべきであり、最適化が難しく、準最適性能をもたらす。
この目的のために、我々はさらにTransVG++を導入し、2倍の改良を行った。
まず、視覚特徴符号化にViT(Vision Transformer)を活用することで、フレームワークを純粋にTransformerベースのものにアップグレードする。
また、外部融合モジュールを除去し、中間層での視覚言語融合のためにユニモーダルViTを再利用するLanguage Conditioned Vision Transformerを考案した。
5つのデータセットについて広範な実験を行い,最新記録を報告する。
関連論文リスト
- Transformer Fusion with Optimal Transport [25.022849817421964]
Fusionは、独立に訓練された複数のニューラルネットワークをマージして、それらの能力を組み合わせる技術である。
本稿では, トランスポートを利用した2つ以上のトランスフォーマーネットワークを (ソフト) に融合させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-09T13:40:31Z) - Isomer: Isomerous Transformer for Zero-shot Video Object Segmentation [59.91357714415056]
コンテクスト共有変換器(CST)とセマンティックガザリング散乱変換器(SGST)の2つの変種を提案する。
CSTは、軽量な計算により、画像フレーム内のグローバル共有コンテキスト情報を学習し、SGSTは、前景と背景のセマンティック相関を別々にモデル化する。
多段核融合にバニラ変換器を使用するベースラインと比較して,我々は13倍の速度向上を実現し,新しい最先端ZVOS性能を実現する。
論文 参考訳(メタデータ) (2023-08-13T06:12:00Z) - HiViT: Hierarchical Vision Transformer Meets Masked Image Modeling [126.89573619301953]
我々はHiViT(Hierarchical ViT)という階層型視覚変換器の新しい設計を提案する。
HiViTはMIMで高い効率と優れたパフォーマンスを享受する。
ImageNet-1K上でMAEを実行する場合、HiViT-BはViT-Bよりも0.6%精度が向上し、Swin-Bよりも1.9$times$スピードアップしたと報告している。
論文 参考訳(メタデータ) (2022-05-30T09:34:44Z) - Glance-and-Gaze Vision Transformer [13.77016463781053]
我々は Glance-and-Gaze Transformer (GG-Transformer) という新しい視覚変換器を提案する。
自然の場面で物体を認識するとき、人間のGlance and Gazeの行動によって動機付けられている。
提案手法は,従来の最先端変圧器よりも一貫した性能を実現することを実証的に実証する。
論文 参考訳(メタデータ) (2021-06-04T06:13:47Z) - TransVG: End-to-End Visual Grounding with Transformers [102.11922622103613]
本稿では,画像に対して言語クエリを接地するタスクに対処するためのトランスフォーマティブベースのフレームワークであるtransvgを提案する。
複雑な核融合モジュールは、高い性能でトランスフォーマーエンコーダ層を単純なスタックで置き換えることができることを示す。
論文 参考訳(メタデータ) (2021-04-17T13:35:24Z) - TransCenter: Transformers with Dense Queries for Multiple-Object
Tracking [87.75122600164167]
私たちは、標準表現(バウンディングボックス)は、マルチオブジェクトトラッキングのためのトランスフォーマー学習に適応していないと主張している。
複数のターゲットの中心を追跡するトランスフォーマーベースのアーキテクチャであるTransCenterを提案する。
論文 参考訳(メタデータ) (2021-03-28T14:49:36Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。