論文の概要: Logically Consistent Loss for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2011.10094v1
- Date: Thu, 19 Nov 2020 20:31:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 20:23:39.431978
- Title: Logically Consistent Loss for Visual Question Answering
- Title(参考訳): 視覚的質問応答のための論理的一貫性損失
- Authors: Anh-Cat Le-Ngo, Truyen Tran, Santu Rana, Sunil Gupta, Svetha Venkatesh
- Abstract要約: ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、同じ分布(すなわち、d)の仮定による一貫性を保証することができない。
マルチタスク学習フレームワークにおける論理的一貫した損失を定式化することにより,この問題に対処するための新しいモデルに依存しない論理制約を提案する。
実験により、提案された損失公式とハイブリッドバッチの導入により、一貫性が向上し、性能が向上することを確認した。
- 参考スコア(独自算出の注目度): 66.83963844316561
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an image, a back-ground knowledge, and a set of questions about an
object, human learners answer the questions very consistently regardless of
question forms and semantic tasks. The current advancement in neural-network
based Visual Question Answering (VQA), despite their impressive performance,
cannot ensure such consistency due to identically distribution (i.i.d.)
assumption. We propose a new model-agnostic logic constraint to tackle this
issue by formulating a logically consistent loss in the multi-task learning
framework as well as a data organisation called family-batch and hybrid-batch.
To demonstrate usefulness of this proposal, we train and evaluate MAC-net based
VQA machines with and without the proposed logically consistent loss and the
proposed data organization. The experiments confirm that the proposed loss
formulae and introduction of hybrid-batch leads to more consistency as well as
better performance. Though the proposed approach is tested with MAC-net, it can
be utilised in any other QA methods whenever the logical consistency between
answers exist.
- Abstract(参考訳): 画像、背景知識、オブジェクトに関する一連の質問が与えられたとき、人間の学習者は質問形式や意味的なタスクに関わらず、質問に非常に一貫して答える。
ニューラルネットワークに基づく視覚質問応答(VQA)の現在の進歩は、その優れた性能にもかかわらず、同じ分布(すなわち、d)の仮定によってそのような一貫性を保証することはできない。
本稿では,マルチタスク学習フレームワークにおける論理的一貫した損失を,ファミリーバッチとハイブリッドバッチと呼ばれるデータ組織とともに定式化し,この問題に対処する新しいモデルに依存しない論理制約を提案する。
本提案の有効性を示すため,MAC-net ベースの VQA マシンを論理的に一貫した損失とデータ構造を用いて学習・評価する。
実験により,提案する損失公式とハイブリッドバッチの導入により,一貫性が向上し,性能も向上することが確認された。
提案手法はMAC-netで検証されるが,解間の論理的整合性が存在する場合,他のQA手法で利用することができる。
関連論文リスト
- Case-Based Reasoning Approach for Solving Financial Question Answering [5.10832476049103]
FinQAは財務文書の数値推論データセットを導入した。
ケースベース推論(CBR)を用いた数値推論問題に対する新しいアプローチを提案する。
本モデルでは,質問に対処する関連事例を検索し,検索した事例と文脈情報に基づいて回答を生成する。
論文 参考訳(メタデータ) (2024-05-18T10:06:55Z) - RetinaQA: A Robust Knowledge Base Question Answering Model for both Answerable and Unanswerable Questions [23.73807255464977]
State-of-the-the-art Knowledge Base Question Answering (KBQA)モデルはすべての質問に答えられると仮定する。
単一KBQAアーキテクチャにおいて2つの重要なアイデアを統一する新しいモデルであるRetinaQAを提案する。
RetinaQAは、解答可能な問題と解答不能な問題の両方を扱う上で、最先端KBQAモデルの適応性を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-03-16T08:08:20Z) - An Empirical Comparison of LM-based Question and Answer Generation
Methods [79.31199020420827]
質問と回答の生成(QAG)は、コンテキストが与えられた質問と回答のペアのセットを生成することで構成される。
本稿では,シーケンス・ツー・シーケンス言語モデル(LM)を微調整する3つの異なるQAG手法を用いて,ベースラインを確立する。
実験により、学習時間と推論時間の両方で計算的に軽量なエンドツーエンドQAGモデルが一般に堅牢であり、他のより複雑なアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-05-26T14:59:53Z) - Logical Implications for Visual Question Answering Consistency [2.005299372367689]
本稿では,VQAモデルに広く適用可能な新しい整合損失項を提案する。
本稿では,これらの論理的関係を専用言語モデルを用いて推論し,一貫性損失関数として用いることを提案する。
我々は、VQAイントロスペクションとDMEデータセットに関する広範な実験を行い、我々の手法が最先端のVQAモデルに改善をもたらすことを示す。
論文 参考訳(メタデータ) (2023-03-16T16:00:18Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - A New Score for Adaptive Tests in Bayesian and Credal Networks [64.80185026979883]
テストは、そのシークエンスと質問数とが、テイカーの推定スキルに基づいて動的に調整されるときに適応する。
後部確率のモードに基づいて、別のスコアの族を提示するので、説明し易い。
論文 参考訳(メタデータ) (2021-05-25T20:35:42Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Hierarchical Deep Multi-modal Network for Medical Visual Question
Answering [25.633660028022195]
本稿では,エンドユーザの質問/問い合わせを分析し,分類する階層的なディープマルチモーダルネットワークを提案する。
我々は、QSモデルを階層的な深層多モードニューラルネットワークに統合し、医用画像に関するクエリに対する適切な回答を生成する。
論文 参考訳(メタデータ) (2020-09-27T07:24:41Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。