論文の概要: Component Analysis for Visual Question Answering Architectures
- arxiv url: http://arxiv.org/abs/2002.05104v2
- Date: Fri, 27 Mar 2020 01:08:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-01 18:53:47.971585
- Title: Component Analysis for Visual Question Answering Architectures
- Title(参考訳): ビジュアル質問応答アーキテクチャのためのコンポーネント分析
- Authors: Camila Kolling, J\^onatas Wehrmann, and Rodrigo C. Barros
- Abstract要約: 本論文の主な目的は,視覚質問応答モデルにおける各コンポーネントの影響を包括的に分析することである。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、その予測性能を最大化することです。
- 参考スコア(独自算出の注目度): 10.56011196733086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research advances in Computer Vision and Natural Language Processing
have introduced novel tasks that are paving the way for solving AI-complete
problems. One of those tasks is called Visual Question Answering (VQA). A VQA
system must take an image and a free-form, open-ended natural language question
about the image, and produce a natural language answer as the output. Such a
task has drawn great attention from the scientific community, which generated a
plethora of approaches that aim to improve the VQA predictive accuracy. Most of
them comprise three major components: (i) independent representation learning
of images and questions; (ii) feature fusion so the model can use information
from both sources to answer visual questions; and (iii) the generation of the
correct answer in natural language. With so many approaches being recently
introduced, it became unclear the real contribution of each component for the
ultimate performance of the model. The main goal of this paper is to provide a
comprehensive analysis regarding the impact of each component in VQA models.
Our extensive set of experiments cover both visual and textual elements, as
well as the combination of these representations in form of fusion and
attention mechanisms. Our major contribution is to identify core components for
training VQA models so as to maximize their predictive performance.
- Abstract(参考訳): 近年のコンピュータビジョンと自然言語処理の研究は、AI完全問題を解決するための新しいタスクを導入している。
これらのタスクのひとつにVisual Question Answering(VQA)がある。
VQAシステムは、画像と、その画像に関する自由でオープンな自然言語の質問を取り、出力として自然言語の回答を生成する必要がある。
このような課題は、VQA予測精度を改善するための多くのアプローチを生み出した科学コミュニティから大きな注目を集めている。
ほとんどが3つの主要な構成要素で構成されています
(i)画像及び質問の独立した表現学習
(二)特徴融合により、両情報源の情報を用いて視覚的疑問に答えることができる。
(iii)自然言語における正答の生成。
最近導入された多くのアプローチによって、モデルの究極のパフォーマンスに対する各コンポーネントの本当の貢献が明確になった。
本稿では,VQAモデルにおける各コンポーネントの影響を包括的に分析することを目的とする。
我々の広範な実験は、視覚的要素とテキスト的要素の両方をカバーし、融合と注意機構の形でこれらの表現を組み合わせる。
我々の主な貢献は、VQAモデルをトレーニングするためのコアコンポーネントを特定し、予測性能を最大化することです。
関連論文リスト
- Ask Questions with Double Hints: Visual Question Generation with Answer-awareness and Region-reference [107.53380946417003]
本稿では,応答認識と領域参照を用いた視覚的質問生成のための新しい学習パラダイムを提案する。
我々は、追加の人間のアノテーションを導入することなく、視覚的ヒントを自己学習する簡単な手法を開発した。
論文 参考訳(メタデータ) (2024-07-06T15:07:32Z) - Precision Empowers, Excess Distracts: Visual Question Answering With Dynamically Infused Knowledge In Language Models [36.56689822791777]
KBVQA (Knowledge-Based Visual Question Answering) は、外部知識と質問に答える画像を追加することで、この概念を前進させる。
本研究の主な貢献は、動的トリプル抽出法を用いて知識グラフから抽出した外部知識を組み込むことにより、質問を強化することである。
知識に富んだ我々のモデルは,3種類のKBVQAデータセット上での最先端技術よりも,Exact Match Scoreの平均4.75%向上を示す。
論文 参考訳(メタデータ) (2024-06-14T13:07:46Z) - Blind Image Quality Assessment via Vision-Language Correspondence: A
Multitask Learning Perspective [93.56647950778357]
ブラインド画像品質評価(BIQA)は、参照情報なしで画像品質の人間の知覚を予測する。
我々は,他のタスクからの補助的知識を活用するために,BIQAのための汎用的かつ自動化されたマルチタスク学習手法を開発した。
論文 参考訳(メタデータ) (2023-03-27T07:58:09Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - How to find a good image-text embedding for remote sensing visual
question answering? [41.0510495281302]
視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。
遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデルの複雑さに関する精度の利得を解析した。
論文 参考訳(メタデータ) (2021-09-24T09:48:28Z) - Loss re-scaling VQA: Revisiting the LanguagePrior Problem from a
Class-imbalance View [129.392671317356]
本稿では,クラス不均衡の観点から,VQAにおける言語先行問題を理解することを提案する。
これは、なぜVQAモデルが頻繁に、そして明らかに間違った答えをもたらすのかを明確に示している。
また,顔認識や画像分類などの他のコンピュータビジョンタスクに対して,クラス不均衡解釈方式の有効性を正当化する。
論文 参考訳(メタデータ) (2020-10-30T00:57:17Z) - Cross-modal Knowledge Reasoning for Knowledge-based Visual Question
Answering [27.042604046441426]
KVQA(Knowledge-based Visual Question Answering)は、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
本稿では,視覚的,意味的,事実的な視点から,複数の知識グラフによる画像を記述する。
我々は、モデルを一連のメモリベースの推論ステップに分解し、それぞれがGラーフベースのR ead、U pdate、C ontrolによって実行される。
我々は、FVQA、Visual7W-KB、OK-VQAを含む3つの人気のあるベンチマークデータセットに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2020-08-31T23:25:01Z) - A Novel Attention-based Aggregation Function to Combine Vision and
Language [55.7633883960205]
本稿では,視覚と言語のための新しい完全適応型還元法を提案する。
具体的には,各モータリティの各要素のスコアの集合を,クロスアテンションの新たな変種を用いて計算する。
我々は、画像テキストマッチングと視覚的質問応答のアプローチを試行し、他の縮小選択と公正な比較を構築した。
論文 参考訳(メタデータ) (2020-04-27T18:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。