Fugu-MT 論文翻訳(概要): Weakly Supervised Grounding for VQA in Vision-Language Transformers

論文の概要: Weakly Supervised Grounding for VQA in Vision-Language Transformers

arxiv url: http://arxiv.org/abs/2207.02334v1
Date: Tue, 5 Jul 2022 22:06:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-07-08 04:23:51.633019
Title: Weakly Supervised Grounding for VQA in Vision-Language Transformers
Title（参考訳）: ビジョンランゲージ変換器におけるVQAの弱教師付きグラウンド化
Authors: Aisha Urooj Khan, Hilde Kuehne, Chuang Gan, Niels Da Vitoria Lobo, Mubarak Shah
Abstract要約: 本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
参考スコア（独自算出の注目度）: 112.5344267669495
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformers for visual-language representation learning have been getting a lot of interest and shown tremendous performance on visual question answering (VQA) and grounding. But most systems that show good performance of those tasks still rely on pre-trained object detectors during training, which limits their applicability to the object classes available for those detectors. To mitigate this limitation, the following paper focuses on the problem of weakly supervised grounding in context of visual question answering in transformers. The approach leverages capsules by grouping each visual token in the visual encoder and uses activations from language self-attention layers as a text-guided selection module to mask those capsules before they are forwarded to the next layer. We evaluate our approach on the challenging GQA as well as VQA-HAT dataset for VQA grounding. Our experiments show that: while removing the information of masked objects from standard transformer architectures leads to a significant drop in performance, the integration of capsules significantly improves the grounding ability of such systems and provides new state-of-the-art results compared to other approaches in the field.
Abstract（参考訳）: 視覚言語表現学習のためのトランスフォーマーは、多くの関心を集めており、視覚質問応答(vqa)と接地において大きなパフォーマンスを示している。しかし、これらのタスクの優れたパフォーマンスを示すほとんどのシステムは、トレーニング中にトレーニング済みのオブジェクト検出器に依存している。この制限を緩和するために、変圧器における視覚的質問応答の文脈における弱教師付き接地の問題に焦点を当てた。このアプローチでは、視覚エンコーダ内の各ビジュアルトークンをグループ化し、テキストガイドによる選択モジュールとして言語自己アテンション層からのアクティベーションを使用して、カプセルを次のレイヤに転送する前にマスクする。我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。標準トランスアーキテクチャからマスク対象の情報を除去すると性能が大幅に低下するのに対し,カプセルの統合はそのようなシステムの接地能力を大幅に向上させ,現場の他の手法と比較して新たな最先端の成果をもたらす。

関連論文リスト

Cyclic Contrastive Knowledge Transfer for Open-Vocabulary Object Detection [11.497620257835964]
我々は、余分な監督なしに訓練されたCCKT-Detを提案する。提案フレームワークは,視覚言語モデル(VLM)から抽出した言語クエリと視覚領域の特徴から,循環的かつ動的に知識を伝達する。 CCKT-Detは、VLMの規模が大きくなるにつれて常に性能を向上させることができる。
論文参考訳（メタデータ） (2025-03-14T02:04:28Z)
Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。 CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。 QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文参考訳（メタデータ） (2024-10-31T11:20:13Z)
Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文参考訳（メタデータ） (2024-10-14T13:35:47Z)
Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文参考訳（メタデータ） (2024-05-27T08:26:58Z)
Learning from Visual Observation via Offline Pretrained State-to-Go Transformer [29.548242447584194]
視覚的観察から学ぶための2段階のフレームワークを提案する。第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
論文参考訳（メタデータ） (2023-06-22T13:14:59Z)
Vision Transformers: From Semantic Segmentation to Dense Prediction [139.15562023284187]
視覚的予測のための視覚変換器(ViT)のグローバルな文脈学習の可能性について検討する。我々のモチベーションは、グローバルコンテキストを全受容界層で学習することで、ViTがより強力な長距離依存性情報を取得することである。階層型ローカル・グローバル・トランスフォーマー (HLG) のファミリを定式化し, 窓内部の局所的な注意と, ピラミッド建築における窓全体のグローバルアテンションを特徴とする。
論文参考訳（メタデータ） (2022-07-19T15:49:35Z)
Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。多様なアプリケーションにおけるMViT提案の重要性を示す。
論文参考訳（メタデータ） (2021-11-22T18:59:29Z)
Found a Reason for me? Weakly-supervised Grounded Visual Question Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文参考訳（メタデータ） (2021-05-11T07:45:32Z)
Visual Grounding with Transformers [43.40192909920495]
我々のアプローチはトランスエンコーダデコーダ上に構築されており、事前訓練された検出器や単語埋め込みモデルとは独立している。提案手法は5つのベンチマークにおいて,最先端のプロポーザルフリーアプローチよりもかなり優れている。
論文参考訳（メタデータ） (2021-05-10T11:46:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。