論文の概要: Weakly Supervised Grounding for VQA in Vision-Language Transformers
- arxiv url: http://arxiv.org/abs/2207.02334v1
- Date: Tue, 5 Jul 2022 22:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 04:23:51.633019
- Title: Weakly Supervised Grounding for VQA in Vision-Language Transformers
- Title(参考訳): ビジョンランゲージ変換器におけるVQAの弱教師付きグラウンド化
- Authors: Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo,
Mubarak Shah
- Abstract要約: 本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 112.5344267669495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers for visual-language representation learning have been getting a
lot of interest and shown tremendous performance on visual question answering
(VQA) and grounding. But most systems that show good performance of those tasks
still rely on pre-trained object detectors during training, which limits their
applicability to the object classes available for those detectors. To mitigate
this limitation, the following paper focuses on the problem of weakly
supervised grounding in context of visual question answering in transformers.
The approach leverages capsules by grouping each visual token in the visual
encoder and uses activations from language self-attention layers as a
text-guided selection module to mask those capsules before they are forwarded
to the next layer. We evaluate our approach on the challenging GQA as well as
VQA-HAT dataset for VQA grounding. Our experiments show that: while removing
the information of masked objects from standard transformer architectures leads
to a significant drop in performance, the integration of capsules significantly
improves the grounding ability of such systems and provides new
state-of-the-art results compared to other approaches in the field.
- Abstract(参考訳): 視覚言語表現学習のためのトランスフォーマーは、多くの関心を集めており、視覚質問応答(vqa)と接地において大きなパフォーマンスを示している。
しかし、これらのタスクの優れたパフォーマンスを示すほとんどのシステムは、トレーニング中にトレーニング済みのオブジェクト検出器に依存している。
この制限を緩和するために、変圧器における視覚的質問応答の文脈における弱教師付き接地の問題に焦点を当てた。
このアプローチでは、視覚エンコーダ内の各ビジュアルトークンをグループ化し、テキストガイドによる選択モジュールとして言語自己アテンション層からのアクティベーションを使用して、カプセルを次のレイヤに転送する前にマスクする。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
標準トランスアーキテクチャからマスク対象の情報を除去すると性能が大幅に低下するのに対し,カプセルの統合はそのようなシステムの接地能力を大幅に向上させ,現場の他の手法と比較して新たな最先端の成果をもたらす。
関連論文リスト
- Can I Trust Your Answer? Visually Grounded Video Question Answering [96.2556940692861]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文 参考訳(メタデータ) (2023-06-22T13:14:59Z) - Vision Transformers: From Semantic Segmentation to Dense Prediction [144.38869017091199]
画像分類における視覚変換器(ViT)は、視覚表現学習の方法論をシフトさせている。
本研究では、高密度視覚予測のためのVTのグローバルな文脈学習の可能性について検討する。
我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。
論文 参考訳(メタデータ) (2022-07-19T15:49:35Z) - Beyond Masking: Demystifying Token-Based Pre-Training for Vision
Transformers [122.01591448013977]
Masked Image Modeling (MIM) は下流タスクにおいて有望な結果を示した。
本稿では,欠落した内容を回復して学習する効果的な方法があるかどうかを考察する。
我々は、トークンベースのビジョントランスフォーマーの事前トレーニングに関するいくつかの設計原則を要約する。
この設計は、余分な計算コストを伴わない一連の下流認識タスクにおいて、MIMよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-03-27T14:23:29Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Visual Grounding with Transformers [43.40192909920495]
我々のアプローチはトランスエンコーダデコーダ上に構築されており、事前訓練された検出器や単語埋め込みモデルとは独立している。
提案手法は5つのベンチマークにおいて,最先端のプロポーザルフリーアプローチよりもかなり優れている。
論文 参考訳(メタデータ) (2021-05-10T11:46:12Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。