論文の概要: Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules
- arxiv url: http://arxiv.org/abs/2105.04836v1
- Date: Tue, 11 May 2021 07:45:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 00:01:05.285383
- Title: Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules
- Title(参考訳): 理由を見つけたのか?
カプセルを用いた弱教師付き視覚質問応答
- Authors: Aisha Urooj Khan, Hilde Kuehne, Kevin Duarte, Chuang Gan, Niels Lobo,
Mubarak Shah
- Abstract要約: 近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
- 参考スコア(独自算出の注目度): 85.98177341704675
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The problem of grounding VQA tasks has seen an increased attention in the
research community recently, with most attempts usually focusing on solving
this task by using pretrained object detectors. However, pre-trained object
detectors require bounding box annotations for detecting relevant objects in
the vocabulary, which may not always be feasible for real-life large-scale
applications. In this paper, we focus on a more relaxed setting: the grounding
of relevant visual entities in a weakly supervised manner by training on the
VQA task alone. To address this problem, we propose a visual capsule module
with a query-based selection mechanism of capsule features, that allows the
model to focus on relevant regions based on the textual cues about visual
information in the question. We show that integrating the proposed capsule
module in existing VQA systems significantly improves their performance on the
weakly supervised grounding task. Overall, we demonstrate the effectiveness of
our approach on two state-of-the-art VQA systems, stacked NMN and MAC, on the
CLEVR-Answers benchmark, our new evaluation set based on CLEVR scenes with
ground truth bounding boxes for objects that are relevant for the correct
answer, as well as on GQA, a real world VQA dataset with compositional
questions. We show that the systems with the proposed capsule module
consistently outperform the respective baseline systems in terms of answer
grounding, while achieving comparable performance on VQA task.
- Abstract(参考訳): VQAタスクの接地問題は、最近研究コミュニティで注目され、ほとんどの試みは、事前訓練された物体検出器を用いてこのタスクを解決することに重点を置いている。
しかし、事前学習されたオブジェクト検出器は、語彙内の関連するオブジェクトを検出するために境界ボックスアノテーションを必要とする。
本稿では,VQAタスクのみをトレーニングすることで,関連性のある視覚的実体を弱教師付きで基礎付けるという,よりリラックスした設定に焦点を当てる。
この問題に対処するために,カプセル特徴のクエリに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
CLEVR-Answersベンチマークでは2つの最先端VQAシステム(NMNとMAC)、CLEVR-Answersベンチマーク(CLEVR-Answersベンチマーク)、CLEVRシーンをベースとした新たな評価セット、正解に関連のあるオブジェクトの真理境界ボックス、および構成質問を含む実世界VQAデータセット(GQA)に対するアプローチの有効性を実証した。
提案するカプセルモジュールを用いたシステムは,VQAタスクにおいて同等の性能を達成しつつ,各ベースラインシステムより一貫して優れていることを示す。
関連論文リスト
- Show Me What and Where has Changed? Question Answering and Grounding for Remote Sensing Change Detection [82.65760006883248]
我々は,CDQAG (Change Detection Question Answering and Grounding) という新しいタスクを導入する。
CDQAGは、解釈可能なテキスト回答と直感的な視覚的証拠を提供することで、従来の変更検出タスクを拡張している。
QAG-360Kと呼ばれる最初のCDQAGベンチマークデータセットを構築し、360K以上の質問、テキスト回答、およびそれに対応する高品質な視覚マスクを含む。
論文 参考訳(メタデータ) (2024-10-31T11:20:13Z) - Detect2Interact: Localizing Object Key Field in Visual Question Answering (VQA) with LLMs [5.891295920078768]
本稿では,物体の視覚的フィールド検出のための高度な手法を提案する。
まず,画像中の物体の詳細な空間地図を生成するために,SAMモデルを用いた。
次に、Vision Studioを使用してセマンティックオブジェクト記述を抽出する。
第3に、GPT-4の常識知識を用いて、オブジェクトの意味論と空間マップとのギャップを埋める。
論文 参考訳(メタデータ) (2024-04-01T14:53:36Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization [119.23191388798921]
本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:50:50Z) - Visually Grounded VQA by Lattice-based Retrieval [24.298908211088072]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
論文 参考訳(メタデータ) (2022-11-15T12:12:08Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - Weakly Supervised Grounding for VQA in Vision-Language Transformers [112.5344267669495]
本稿では,トランスにおける視覚的質問応答の文脈における弱教師付きグラウンドリングの問題に焦点をあてる。
このアプローチでは、視覚エンコーダ内の各視覚トークンをグループ化することでカプセルを活用する。
我々は、挑戦的なGQAとVQAグラウンドリングのためのVQA-HATデータセットに対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-05T22:06:03Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。