論文の概要: Adventurer's Treasure Hunt: A Transparent System for Visually Grounded
Compositional Visual Question Answering based on Scene Graphs
- arxiv url: http://arxiv.org/abs/2106.14476v1
- Date: Mon, 28 Jun 2021 08:39:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-29 18:03:27.730490
- Title: Adventurer's Treasure Hunt: A Transparent System for Visually Grounded
Compositional Visual Question Answering based on Scene Graphs
- Title(参考訳): adventurer's treasure hunt: シーングラフに基づく視覚的な構成的視覚的質問応答システム
- Authors: Daniel Reich, Felix Putze, Tanja Schultz
- Abstract要約: アドベンチャラー宝探し(アドベンチャラー宝探し、Adventurer's Treasure Hunt、ATH)は、我々のモデルによる解答の手続きと冒険者の宝探しの類似性から名づけられた。
ATHは、視覚知識ベースを直接クエリすることで、答えを動的に抽出する最初のGQA訓練VQAシステムである。
GQAデータセット上では,全コンポーネントの詳細な結果とVQAパフォーマンスへの貢献を報告し,ATHが全システムの中で最高の視覚的グラウンドティングスコアを達成していることを示す。
- 参考スコア(独自算出の注目度): 29.59479131119943
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the expressed goal of improving system transparency and visual grounding
in the reasoning process in VQA, we present a modular system for the task of
compositional VQA based on scene graphs. Our system is called "Adventurer's
Treasure Hunt" (or ATH), named after an analogy we draw between our model's
search procedure for an answer and an adventurer's search for treasure. We
developed ATH with three characteristic features in mind: 1. By design, ATH
allows us to explicitly quantify the impact of each of the sub-components on
overall VQA performance, as well as their performance on their individual
sub-task. 2. By modeling the search task after a treasure hunt, ATH inherently
produces an explicit, visually grounded inference path for the processed
question. 3. ATH is the first GQA-trained VQA system that dynamically extracts
answers by querying the visual knowledge base directly, instead of selecting
one from a specially learned classifier's output distribution over a pre-fixed
answer vocabulary. We report detailed results on all components and their
contributions to overall VQA performance on the GQA dataset and show that ATH
achieves the highest visual grounding score among all examined systems.
- Abstract(参考訳): VQAの推論過程におけるシステムの透明性向上と視覚的基盤化を目標として,シーングラフに基づくVQAの構成作業のためのモジュールシステムを提案する。
我々のシステムは「アドベンチャラーの宝探し(Adventurer's Treasure Hunt, ATH)」と呼ばれており、これは我々のモデルによる解答の手続きと冒険者の宝探しの類似性に由来する。
我々は3つの特徴を念頭にATHを開発した。
設計により、ATHは、各サブコンポーネントが全体のVQAパフォーマンス、および個々のサブタスクに対するパフォーマンスに与える影響を明示的に定量化できます。
2.
宝探し後の探索タスクをモデル化することにより、ATHは本質的に、処理された質問に対する明示的で視覚的に根拠付けられた推論パスを生成する。
3.
athは、事前固定された回答語彙上の特別に学習された分類器の出力分布から選択するのではなく、視覚的な知識ベースを直接問い合わせて動的に答えを抽出する、最初のgqa訓練vqaシステムである。
GQAデータセット上では,全コンポーネントの詳細な結果とVQAパフォーマンスへの貢献を報告し,ATHが全システムの中で最高の視覚的グラウンドティングスコアを達成していることを示す。
関連論文リスト
- Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - Where is my Wallet? Modeling Object Proposal Sets for Egocentric Visual
Query Localization [119.23191388798921]
本稿では、視覚的見本から画像とビデオのデータセットにオブジェクトをローカライズする問題を扱う。
まず、現在のクエリ条件付きモデル設計とビジュアルクエリデータセットにおける暗黙バイアスを識別する。
本稿では,オブジェクト・プロモーサル・セット・コンテキストを考慮可能なトランスフォーマー・ベース・モジュールを提案する。
論文 参考訳(メタデータ) (2022-11-18T22:50:50Z) - Visually Grounded VQA by Lattice-based Retrieval [24.298908211088072]
VQA(Visual Question Answering)システムにおける視覚的グラウンドリング(VG)は、システムが質問とその回答を関連画像領域にどのように結び付けるかを記述する。
本稿では,VQAの分類パラダイムを破り,情報検索タスクの観点からVQAを考察する。
本システムは,与えられた画像のシーングラフから抽出した,重み付き非巡回グラフであるa.k.a.latticeを,質問から抽出した領域参照式と合わせて操作する。
論文 参考訳(メタデータ) (2022-11-15T12:12:08Z) - Symbolic Replay: Scene Graph as Prompt for Continual Learning on VQA
Task [12.74065821307626]
VQAは、画像に関するあらゆる疑問に答えることを目的とした野心的なタスクである。
ユーザのニーズが継続的に更新されているため、このようなシステムを構築するのは困難です。
本稿では,VQA 上で CL に適した実データフリーリプレイ方式を提案する。
論文 参考訳(メタデータ) (2022-08-24T12:00:02Z) - REVIVE: Regional Visual Representation Matters in Knowledge-Based Visual
Question Answering [75.53187719777812]
本稿では,知識に基づく視覚的質問応答(VQA)における視覚表現を再考する。
本稿では,対象領域の明示的な情報を活用するための知識に基づく新しいVQA手法REVIVEを提案する。
我々は,新しい最先端性能,すなわち58.0%の精度を実現し,従来の最先端手法を大きなマージンで上回った。
論文 参考訳(メタデータ) (2022-06-02T17:59:56Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - From Easy to Hard: Learning Language-guided Curriculum for Visual
Question Answering on Remote Sensing Data [27.160303686163164]
リモートセンシングシーンに対する視覚的質問応答(VQA)は、インテリジェントな人-コンピュータインタラクションシステムにおいて大きな可能性を秘めている。
RSVQAデータセットにはオブジェクトアノテーションがないため、モデルが情報的領域表現を活用できない。
RSVQAタスクでは、各画像の難易度が明らかに異なる。
言語誘導の全体的特徴と地域的特徴を共同で抽出する多段階視覚特徴学習法を提案する。
論文 参考訳(メタデータ) (2022-05-06T11:37:00Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Found a Reason for me? Weakly-supervised Grounded Visual Question
Answering using Capsules [85.98177341704675]
近年,VQAタスクの接地に関する問題が研究コミュニティで注目されている。
カプセル特徴のクエリーに基づく選択機構を備えたビジュアルカプセルモジュールを提案する。
提案するカプセルモジュールを既存のVQAシステムに統合することで,弱教師付き接地作業における性能が著しく向上することを示す。
論文 参考訳(メタデータ) (2021-05-11T07:45:32Z) - Component Analysis for Visual Question Answering Architectures [10.56011196733086]
本論文の主な目的は,視覚質問応答モデルにおける各コンポーネントの影響を包括的に分析することである。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、その予測性能を最大化することです。
論文 参考訳(メタデータ) (2020-02-12T17:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。