論文の概要: Latent Variable Models for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2101.06399v1
- Date: Sat, 16 Jan 2021 08:21:43 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-28 08:15:45.318772
- Title: Latent Variable Models for Visual Question Answering
- Title(参考訳): 視覚的質問応答のための潜在変数モデル
- Authors: Zixu Wang, Yishu Miao, Lucia Specia
- Abstract要約: 視覚質問応答に対する潜在変数モデルを提案する。
余分な情報(例)
キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれます。
VQA v2.0ベンチマークデータセットの実験は、提案されたモデルの有効性を示している。
- 参考スコア(独自算出の注目度): 34.9601948665926
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Conventional models for Visual Question Answering (VQA) explore deterministic
approaches with various types of image features, question features, and
attention mechanisms. However, there exist other modalities that can be
explored in addition to image and question pairs to bring extra information to
the models. In this work, we propose latent variable models for VQA where extra
information (e.g. captions and answer categories) are incorporated as latent
variables to improve inference, which in turn benefits question-answering
performance. Experiments on the VQA v2.0 benchmarking dataset demonstrate the
effectiveness of our proposed models in that they improve over strong
baselines, especially those that do not rely on extensive language-vision
pre-training.
- Abstract(参考訳): VQA(Visual Question Answering)の従来のモデルは、様々なタイプの画像特徴、質問特徴、注意機構による決定論的アプローチを探索する。
しかし、モデルに余分な情報をもたらすために、画像と質問のペアに加えて、探究できる他のモダリティも存在する。
本稿では,付加情報(例えば,VQA)の潜在変数モデルを提案する。
キャプションと回答カテゴリ)は推論を改善するために潜在変数として組み込まれ、それによって質問応答のパフォーマンスが向上する。
VQA v2.0ベンチマークデータセットの実験では、強力なベースライン、特に広範囲な言語ビジョン事前学習に依存しないモデルよりも改善されたモデルの有効性が示されている。
関連論文リスト
- UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - MGA-VQA: Multi-Granularity Alignment for Visual Question Answering [75.55108621064726]
視覚的な質問に答えることを学ぶことは、マルチモーダル入力が2つの特徴空間内にあるため、難しい作業である。
視覚質問応答タスク(MGA-VQA)のための多言語アライメントアーキテクチャを提案する。
我々のモデルはアライメントを異なるレベルに分割し、追加のデータやアノテーションを必要とせずにより良い相関関係を学習します。
論文 参考訳(メタデータ) (2022-01-25T22:30:54Z) - COIN: Counterfactual Image Generation for VQA Interpretation [5.994412766684842]
本稿では,VQAモデルに対する対実画像の生成による解釈可能性のアプローチを提案する。
単一画像上でのVQAモデルの結果の解釈に加えて、得られた結果と議論は、VQAモデルの振る舞いに関する広範な説明を提供する。
論文 参考訳(メタデータ) (2022-01-10T13:51:35Z) - Guiding Visual Question Generation [40.56637275354495]
従来の視覚質問生成(VQG)では、ほとんどの画像は、質問を生成できる複数の概念を持っている。
本稿では,カテゴリ情報に基づいて質問生成を行うVQGの変種である案内視覚質問生成について述べる。
論文 参考訳(メタデータ) (2021-10-15T17:38:08Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - C3VQG: Category Consistent Cyclic Visual Question Generation [51.339348810676896]
視覚質問生成(VQG)は、画像に基づいて自然な質問を生成するタスクである。
本稿では,画像内の様々な視覚的手がかりと概念を利用して,基底的答えを伴わずに,変分オートエンコーダ(VAE)を用いて質問を生成する。
提案手法は,既存のVQGシステムにおける2つの大きな欠点を解消する: (i) 監督レベルを最小化し, (ii) 一般的な質問をカテゴリ関連世代に置き換える。
論文 参考訳(メタデータ) (2020-05-15T20:25:03Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。