論文の概要: Logical Implications for Visual Question Answering Consistency
- arxiv url: http://arxiv.org/abs/2303.09427v1
- Date: Thu, 16 Mar 2023 16:00:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-17 14:55:57.864907
- Title: Logical Implications for Visual Question Answering Consistency
- Title(参考訳): 視覚的質問応答一貫性の論理的意味
- Authors: Sergio Tascon-Morales and Pablo M\'arquez-Neila and Raphael Sznitman
- Abstract要約: 本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 2.005299372367689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite considerable recent progress in Visual Question Answering (VQA)
models, inconsistent or contradictory answers continue to cast doubt on their
true reasoning capabilities. However, most proposed methods use indirect
strategies or strong assumptions on pairs of questions and answers to enforce
model consistency. Instead, we propose a novel strategy intended to improve
model performance by directly reducing logical inconsistencies. To do this, we
introduce a new consistency loss term that can be used by a wide range of the
VQA models and which relies on knowing the logical relation between pairs of
questions and answers. While such information is typically not available in VQA
datasets, we propose to infer these logical relations using a dedicated
language model and use these in our proposed consistency loss function. We
conduct extensive experiments on the VQA Introspect and DME datasets and show
that our method brings improvements to state-of-the-art VQA models, while being
robust across different architectures and settings.
- Abstract(参考訳): VQA(Visual Question Answering)モデルはかなり最近の進歩にもかかわらず、矛盾する、あるいは矛盾する回答は、真の推論能力に疑問を呈し続けている。
しかし、ほとんどの提案手法は、モデルの一貫性を強制するために、質問と回答のペアに対して間接的な戦略や強い仮定を用いる。
代わりに,論理的不整合を直接低減し,モデル性能を向上させるための新しい戦略を提案する。
これを実現するために,VQAモデルに広く適用可能な新しい一貫性損失項を導入し,質問と回答のペア間の論理的関係を理解することに依存する。
このような情報は一般にVQAデータセットでは利用できないが、専用言語モデルを用いてこれらの論理的関係を推論し、提案した一貫性損失関数で使用することを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示した。
関連論文リスト
- An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Knowledge-Based Counterfactual Queries for Visual Question Answering [0.0]
本稿では,VQAモデルの動作を説明するための系統的手法を提案する。
そこで我々は,言語的モダリティをターゲットとした決定論的,最適,制御可能な単語レベルの置換を行うために,構造化知識ベースを利用する。
次に、そのような反実的な入力に対するモデルの応答を評価する。
論文 参考訳(メタデータ) (2023-03-05T08:00:30Z) - On the Significance of Question Encoder Sequence Model in the
Out-of-Distribution Performance in Visual Question Answering [15.787663289343948]
経験を超えて一般化することは、実践的なAIシステムを開発する上で重要な役割を果たす。
現在のVisual Question Answering (VQA)モデルは、言語プライヤに依存し過ぎている。
本稿では,質問エンコーダで使用されるシーケンスモデルアーキテクチャが,VQAモデルの一般化に重要な役割を果たすことを示す。
論文 参考訳(メタデータ) (2021-08-28T05:51:27Z) - Learning from Lexical Perturbations for Consistent Visual Question
Answering [78.21912474223926]
既存のVisual Question Answering (VQA)モデルは、しばしば脆弱で入力のバリエーションに敏感である。
本稿では,モジュール型ネットワークに基づく新たなアプローチを提案し,言語摂動による2つの疑問を提起する。
VQA Perturbed Pairings (VQA P2) も提案する。
論文 参考訳(メタデータ) (2020-11-26T17:38:03Z) - Logically Consistent Loss for Visual Question Answering [66.83963844316561]
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
論文 参考訳(メタデータ) (2020-11-19T20:31:05Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - IQ-VQA: Intelligent Visual Question Answering [3.09911862091928]
ルールベースデータセット上で,VQAモデルの一貫性を15%向上することを示す。
また,視覚と言語に対するマルチモーダル理解が向上するアテンションマップの改良を定量的に示す。
論文 参考訳(メタデータ) (2020-07-08T20:41:52Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。