論文の概要: Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models
- arxiv url: http://arxiv.org/abs/2001.07059v1
- Date: Mon, 20 Jan 2020 11:27:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 05:40:48.473682
- Title: Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models
- Title(参考訳): 正確性対複雑性:視覚的質問応答モデルにおけるトレードオフ
- Authors: Moshiur R. Farazi, Salman H. Khan, Nick Barnes
- Abstract要約: 本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
- 参考スコア(独自算出の注目度): 39.338304913058685
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) has emerged as a Visual Turing Test to
validate the reasoning ability of AI agents. The pivot to existing VQA models
is the joint embedding that is learned by combining the visual features from an
image and the semantic features from a given question. Consequently, a large
body of literature has focused on developing complex joint embedding strategies
coupled with visual attention mechanisms to effectively capture the interplay
between these two modalities. However, modelling the visual and semantic
features in a high dimensional (joint embedding) space is computationally
expensive, and more complex models often result in trivial improvements in the
VQA accuracy. In this work, we systematically study the trade-off between the
model complexity and the performance on the VQA task. VQA models have a diverse
architecture comprising of pre-processing, feature extraction, multimodal
fusion, attention and final classification stages. We specifically focus on the
effect of "multi-modal fusion" in VQA models that is typically the most
expensive step in a VQA pipeline. Our thorough experimental evaluation leads us
to two proposals, one optimized for minimal complexity and the other one
optimized for state-of-the-art VQA performance.
- Abstract(参考訳): VQA(Visual Question Answering)は、AIエージェントの推論能力を検証するビジュアルチューリングテストとして登場した。
既存のVQAモデルへのピボットは、画像からの視覚的特徴と与えられた質問からの意味的特徴を組み合わせることで学習された共同埋め込みである。
その結果、多くの文献が、これらの2つのモード間の相互作用を効果的に捉えるために、視覚的注意機構と組み合わさった複雑な関節埋め込み戦略の開発に焦点を合わせている。
しかし、高次元(結合埋め込み)空間における視覚的特徴と意味的特徴のモデリングは計算に高価であり、より複雑なモデルはしばしばVQA精度の自明な改善をもたらす。
本研究では,VQAタスクにおけるモデル複雑性と性能のトレードオフを系統的に研究する。
VQAモデルは、事前処理、特徴抽出、マルチモーダル融合、注意、最終分類段階からなる多様なアーキテクチャを持つ。
特に、VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
ひとつは最小限の複雑性に最適化され、もうひとつは最先端のvqaパフォーマンスに最適化された提案です。
関連論文リスト
- Enhancing Visual Question Answering through Ranking-Based Hybrid Training and Multimodal Fusion [6.9879884952138065]
Rank VQAモデルは、Faster R-CNNモデルと、事前訓練されたBERTモデルから得られたリッチセマンティックテキスト特徴を用いて抽出された高品質な視覚特徴を統合する。
回答の相対ランク付けを最適化するためにランキング学習モジュールが組み込まれ、回答精度が向上する。
我々のモデルは、標準VQAデータセットにおける既存の最先端モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2024-08-14T05:18:43Z) - Enhanced Textual Feature Extraction for Visual Question Answering: A Simple Convolutional Approach [2.744781070632757]
確立されたVQAフレームワーク内の局所的なテキスト機能に焦点をあてた、長距離依存を利用したモデルと、よりシンプルなモデルの比較を行う。
本稿では,畳み込み層を組み込んだモデルであるConvGRUを提案する。
VQA-v2データセットでテストされたConvGRUでは、NumberやCountといった質問タイプに対するベースラインよりも、わずかながら一貫性のある改善が示されている。
論文 参考訳(メタデータ) (2024-05-01T12:39:35Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Counterfactual Samples Synthesizing and Training for Robust Visual
Question Answering [59.20766562530209]
VQAモデルは、トレーニングセットにおける表面的な言語的相関をキャプチャする傾向にある。
近年のVQA研究は、ターゲットとなるVQAモデルのトレーニングを規則化する補助的な質問専用モデルを導入している。
本稿では,新しいモデル非依存型対実サンプル合成訓練(CSST)戦略を提案する。
論文 参考訳(メタデータ) (2021-10-03T14:31:46Z) - How to find a good image-text embedding for remote sensing visual
question answering? [41.0510495281302]
視覚的質問応答(VQA)がリモートセンシングに導入され、オーバーヘッド画像から情報を取り出すことが可能になった。
遠隔センシングにおけるVQAの文脈における3つの異なる融合手法について検討し,モデルの複雑さに関する精度の利得を解析した。
論文 参考訳(メタデータ) (2021-09-24T09:48:28Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。