論文の概要: Weakly Supervised Grounding for VQA in Vision-Language Transformers
- arxiv url: http://arxiv.org/abs/2207.02334v1
- Date: Tue, 5 Jul 2022 22:06:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-08 04:23:51.633019
- Title: Weakly Supervised Grounding for VQA in Vision-Language Transformers
- Title(参考訳): ビジョンランゲージ変換器におけるVQAの弱教師付きグラウンド化
- Authors: Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo,
Mubarak Shah
- Abstract要約: 本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
- 参考スコア(独自算出の注目度): 112.5344267669495
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers for visual-language representation learning have been getting a
lot of interest and shown tremendous performance on visual question answering
(VQA) and grounding. But most systems that show good performance of those tasks
still rely on pre-trained object detectors during training, which limits their
applicability to the object classes available for those detectors. To mitigate
this limitation, the following paper focuses on the problem of weakly
supervised grounding in context of visual question answering in transformers.
The approach leverages capsules by grouping each visual token in the visual
encoder and uses activations from language self-attention layers as a
text-guided selection module to mask those capsules before they are forwarded
to the next layer. We evaluate our approach on the challenging GQA as well as
VQA-HAT dataset for VQA grounding. Our experiments show that: while removing
the information of masked objects from standard transformer architectures leads
to a significant drop in performance, the integration of capsules significantly
improves the grounding ability of such systems and provides new
state-of-the-art results compared to other approaches in the field.
- Abstract(参考訳): 視覚言語表現学習のためのトランスフォーマーは、多くの関心を集めており、視覚質問応答(vqa)と接地において大きなパフォーマンスを示している。
しかし、これらのタスクの優れたパフォーマンスを示すほとんどのシステムは、トレーニング中にトレーニング済みのオブジェクト検出器に依存している。
この制限を緩和するために、変圧器における視覚的質問応答の文脈における弱教師付き接地の問題に焦点を当てた。
このアプローチでは、視覚エンコーダ内の各ビジュアルトークンをグループ化し、テキストガイドによる選択モジュールとして言語自己アテンション層からのアクティベーションを使用して、カプセルを次のレイヤに転送する前にマスクする。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
標準トランスアーキテクチャからマスク対象の情報を除去すると性能が大幅に低下するのに対し,カプセルの統合はそのようなシステムの接地能力を大幅に向上させ,現場の他の手法と比較して新たな最先端の成果をもたらす。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文 参考訳(メタデータ) (2023-06-22T13:14:59Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Visual Grounding with Transformers [43.40192909920495]
我々のアプローチはトランスエンコーダデコーダ上に構築されており、事前訓練された検出器や単語埋め込みモデルとは独立している。
提案手法は5つのベンチマークにおいて,最先端のプロポーザルフリーアプローチよりもかなり優れている。
論文 参考訳(メタデータ) (2021-05-10T11:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。