論文の概要: VQA-LOL: Visual Question Answering under the Lens of Logic
- arxiv url: http://arxiv.org/abs/2002.08325v2
- Date: Wed, 15 Jul 2020 22:39:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 12:59:59.895860
- Title: VQA-LOL: Visual Question Answering under the Lens of Logic
- Title(参考訳): VQA-LOL:論理のレンズによる視覚的質問応答
- Authors: Tejas Gokhale, Pratyay Banerjee, Chitta Baral, Yezhou Yang
- Abstract要約: 画像に関する疑問に答えるように訓練された視覚的質問応答システムが,複数の質問の論理的構成に答えられるかどうかを検討する。
本稿では,VQAデータセットをベンチマークとして拡張し,論理的構成や言語的変換を含む質問を行う。
本稿では,論理的結合性を理解するために質問注意と論理意図を用いたLOLモデルと,新しいFr'echet-Compatibility Lossを提案する。
- 参考スコア(独自算出の注目度): 58.30291671877342
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Logical connectives and their implications on the meaning of a natural
language sentence are a fundamental aspect of understanding. In this paper, we
investigate whether visual question answering (VQA) systems trained to answer a
question about an image, are able to answer the logical composition of multiple
such questions. When put under this \textit{Lens of Logic}, state-of-the-art
VQA models have difficulty in correctly answering these logically composed
questions. We construct an augmentation of the VQA dataset as a benchmark, with
questions containing logical compositions and linguistic transformations
(negation, disjunction, conjunction, and antonyms). We propose our {Lens of
Logic (LOL)} model which uses question-attention and logic-attention to
understand logical connectives in the question, and a novel
Fr\'echet-Compatibility Loss, which ensures that the answers of the component
questions and the composed question are consistent with the inferred logical
operation. Our model shows substantial improvement in learning logical
compositions while retaining performance on VQA. We suggest this work as a move
towards robustness by embedding logical connectives in visual understanding.
- Abstract(参考訳): 論理接続とその自然言語文の意味への影響は、理解の基本的な側面である。
本稿では,視覚的質問応答システム(VQA)が,複数の質問の論理的構成に答えられるかどうかを検討する。
この textit{Lens of Logic} の下に置けば、最先端のVQAモデルはこれらの論理的に構成された疑問に正しく答えることが困難である。
本稿では,VQAデータセットをベンチマークとして,論理的構成や言語的変換(否定,解離,接続,アントロニム)を含む質問を行う。
本稿では,質問文の論理接続性を理解するために,質問文と論理文を併用した論理文(lol)モデルと,コンポーネント質問と合成質問の回答が推論された論理演算と一致することを保証する新しいfr\'echet-compatibility lossを提案する。
本モデルは,VQAの性能を維持しつつ,論理的構成の学習において大幅な改善を示す。
この研究は、論理接続を視覚理解に組み込むことで、堅牢性に向けた動きとして提案する。
関連論文リスト
- GRS-QA -- Graph Reasoning-Structured Question Answering Dataset [50.223851616680754]
グラフ推論-構造化質問応答データセット(GRS-QA)を導入する。
既存のM-QAデータセットとは異なり、GRS-QAは推論グラフを構築することで複雑な推論経路を明示的にキャプチャする。
実験により, LLMは, 様々な推論構造を用いて, 問合せ処理を行う際に, 異なる性能を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-01T05:14:03Z) - MedLogic-AQA: Enhancing Medical Question Answering with Abstractive Models Focusing on Logical Structures [24.262037382512975]
本稿では、文脈と質問から抽出した一階述語論理(FOL)に基づく規則を利用して、よく理解された回答を生成する新しい抽象QAシステムMedLogic-AQAを提案する。
この論理的推論と抽象的 QA との独特の融合は、論理的に健全で、関連性があり、係り合う答えを生み出すために我々のシステムに等しい。
論文 参考訳(メタデータ) (2024-10-20T18:29:38Z) - Modeling Hierarchical Reasoning Chains by Linking Discourse Units and
Key Phrases for Reading Comprehension [80.99865844249106]
本稿では,論理的推論の基盤として,対話レベルと単語レベルの両方の文脈を扱う総合グラフネットワーク(HGN)を提案する。
具体的には、ノードレベルの関係とタイプレベルの関係は、推論過程におけるブリッジと解釈できるが、階層的な相互作用機構によってモデル化される。
論文 参考訳(メタデータ) (2023-06-21T07:34:27Z) - Discourse-Aware Graph Networks for Textual Logical Reasoning [142.0097357999134]
パッセージレベルの論理関係は命題単位間の係り合いまたは矛盾を表す(例、結論文)
論理的推論QAを解くための論理構造制約モデリングを提案し、談話対応グラフネットワーク(DAGN)を導入する。
ネットワークはまず、インラインの談話接続とジェネリック論理理論を利用した論理グラフを構築し、その後、エッジ推論機構を用いて論理関係を進化させ、グラフ機能を更新することで論理表現を学習する。
論文 参考訳(メタデータ) (2022-07-04T14:38:49Z) - AdaLoGN: Adaptive Logic Graph Network for Reasoning-Based Machine
Reading Comprehension [21.741085513119785]
ReClorやLogiQAといった最近の機械学習の理解データセットでは、テキスト上で論理的推論を行う必要がある。
本稿では, テキスト単位間の論理的関係を表すグラフ上で, 応答を予測し, メッセージを渡すニューラルシンボリックなアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-16T23:51:01Z) - DAGN: Discourse-Aware Graph Network for Logical Reasoning [83.8041050565304]
本論文では,テキストの対話構造に依存した対話型グラフネットワーク (DAGN) を提案する。
本モデルは,基本談話単位(EDU)と談話関係を持つグラフとして談話情報を符号化し,下流QAタスクのためのグラフネットワークを介して談話認識特徴を学習する。
論文 参考訳(メタデータ) (2021-03-26T09:41:56Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。