論文の概要: On the Significance of Question Encoder Sequence Model in the
Out-of-Distribution Performance in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2108.12585v1
- Date: Sat, 28 Aug 2021 05:51:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:44:14.223775
- Title: On the Significance of Question Encoder Sequence Model in the
Out-of-Distribution Performance in Visual Question Answering
- Title(参考訳): 視覚質問応答における問合せエンコーダ系列モデルの分散性能における意義について
- Authors: Gouthaman KV, Anurag Mittal
- Abstract要約: 経験を超えて一般化することは、実践的なAIシステムを開発する上で重要な役割を果たす。
現在のVisual Question Answering (VQA)モデルは、言語プライヤに依存し過ぎている。
本稿では,質問エンコーダで使用されるシーケンスモデルアーキテクチャが,VQAモデルの一般化に重要な役割を果たすことを示す。
- 参考スコア(独自算出の注目度): 15.787663289343948
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalizing beyond the experiences has a significant role in developing
practical AI systems. It has been shown that current Visual Question Answering
(VQA) models are over-dependent on the language-priors (spurious correlations
between question-types and their most frequent answers) from the train set and
pose poor performance on Out-of-Distribution (OOD) test sets. This conduct
limits their generalizability and restricts them from being utilized in
real-world situations. This paper shows that the sequence model architecture
used in the question-encoder has a significant role in the generalizability of
VQA models. To demonstrate this, we performed a detailed analysis of various
existing RNN-based and Transformer-based question-encoders, and along, we
proposed a novel Graph attention network (GAT)-based question-encoder. Our
study found that a better choice of sequence model in the question-encoder
improves the generalizability of VQA models even without using any additional
relatively complex bias-mitigation approaches.
- Abstract(参考訳): 経験を超えて一般化することは、実践的なAIシステムの開発において重要な役割を果たす。
現在の視覚質問応答(vqa)モデルは、列車から言語プライオリエント(質問タイプと最も頻繁な回答の相関関係)に過度に依存しており、out-of-distribution(ood)テストセットで性能が低下していることが示されている。
この行為はそれらの一般化性を制限し、現実の状況での利用を制限する。
本稿では,質問エンコーダで使用されるシーケンスモデルアーキテクチャが,VQAモデルの一般化に重要な役割を果たすことを示す。
そこで本研究では,既存のrnnベースおよびtransformerベースの質問エンコーダの詳細な解析を行い,新しいグラフアテンションネットワーク(gat)ベースの質問エンコーダを提案する。
質問エンコーダにおけるシーケンスモデルのより良い選択は、より複雑なバイアス緩和アプローチを使わずに、VQAモデルの一般化性を向上することを発見した。
関連論文リスト
- QTG-VQA: Question-Type-Guided Architectural for VideoQA Systems [3.486120902611884]
本稿では,VQAシステムにおける様々な質問タイプの重要性と,その性能への影響について考察する。
本稿では,QTG-VQAを提案する。QTG-VQAは,質問型誘導型注意と適応学習機構を組み込んだ新しいアーキテクチャである。
論文 参考訳(メタデータ) (2024-09-14T07:42:41Z) - Improving Generalization of Neural Vehicle Routing Problem Solvers Through the Lens of Model Architecture [9.244633039170186]
本稿では,ESF(Scaling Factor)とDS(Distributed-Specific)デコーダを提案する。
ESFは、様々な大きさのVRPを解く際に、トレーニング中に発見された慣れ親しんだものに対して、モデルの注意重みパターンを調整する。
DSデコーダは、複数の補助光デコーダを通して複数のトレーニング分布パターンのVRPを明示的にモデル化し、モデル表現空間を拡大する。
論文 参考訳(メタデータ) (2024-06-10T09:03:17Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Logical Implications for Visual Question Answering Consistency [2.005299372367689]
本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-16T16:00:18Z) - Attention-guided Generative Models for Extractive Question Answering [17.476450946279037]
近年,事前学習型生成系列列列モデル (seq2seq) は質問応答において大きな成功を収めている。
本稿では,デコーダのクロスアテンションパターンを利用して,生成モデルから抽出された回答を抽出する簡単な手法を提案する。
論文 参考訳(メタデータ) (2021-10-12T23:02:35Z) - X-GGM: Graph Generative Modeling for Out-of-Distribution Generalization
in Visual Question Answering [49.36818290978525]
既存の視覚概念の再構成は、トレーニングセットで目に見えない構成を生成することができる。
本稿では,その問題を暗黙的に扱うためのグラフ生成モデリングベーストレーニングスキーム(X-GGM)を提案する。
X-GGM方式でトレーニングされたベースラインVQAモデルは、2つの標準VQAOODベンチマーク上で最先端のOOD性能を達成する。
論文 参考訳(メタデータ) (2021-07-24T10:17:48Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - Hierarchical Conditional Relation Networks for Video Question Answering [62.1146543269993]
条件関係ネットワーク(CRN)と呼ばれる汎用再利用可能なニューラルネットワークユニットを導入する。
CRNは、ビデオ上での表現と推論のためのより洗練された構造を構築するためのビルディングブロックとして機能する。
その結果,ビデオQAのような複雑なドメインに対する汎用推論ユニットの構築の影響が示された。
論文 参考訳(メタデータ) (2020-02-25T07:00:48Z) - Accuracy vs. Complexity: A Trade-off in Visual Question Answering Models [39.338304913058685]
本稿では,視覚質問応答タスクにおけるモデル複雑性と性能のトレードオフについて検討する。
VQAパイプラインの最も高価なステップであるVQAモデルにおける「マルチモーダル融合」の効果に焦点を当てる。
論文 参考訳(メタデータ) (2020-01-20T11:27:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。