論文の概要: Visual Question Answering based on Formal Logic
- arxiv url: http://arxiv.org/abs/2111.04785v1
- Date: Mon, 8 Nov 2021 19:43:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-10 14:46:58.225884
- Title: Visual Question Answering based on Formal Logic
- Title(参考訳): 形式論理に基づく視覚的質問応答
- Authors: Muralikrishnna G. Sethuraman, Ali Payani, Faramarz Fekri, J. Clayton
Kerce
- Abstract要約: VQAでは、一連の質問が一連の画像に基づいて提示され、手元にあるタスクがその答えに到達する。
我々は形式論理の枠組みを用いて記号的推論に基づくアプローチをとる。
提案手法は高い解釈が可能であり, パイプラインの各ステップは人間によって容易に解析できる。
- 参考スコア(独自算出の注目度): 9.023122463034332
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual question answering (VQA) has been gaining a lot of traction in the
machine learning community in the recent years due to the challenges posed in
understanding information coming from multiple modalities (i.e., images,
language). In VQA, a series of questions are posed based on a set of images and
the task at hand is to arrive at the answer. To achieve this, we take a
symbolic reasoning based approach using the framework of formal logic. The
image and the questions are converted into symbolic representations on which
explicit reasoning is performed. We propose a formal logic framework where (i)
images are converted to logical background facts with the help of scene graphs,
(ii) the questions are translated to first-order predicate logic clauses using
a transformer based deep learning model, and (iii) perform satisfiability
checks, by using the background knowledge and the grounding of predicate
clauses, to obtain the answer. Our proposed method is highly interpretable and
each step in the pipeline can be easily analyzed by a human. We validate our
approach on the CLEVR and the GQA dataset. We achieve near perfect accuracy of
99.6% on the CLEVR dataset comparable to the state of art models, showcasing
that formal logic is a viable tool to tackle visual question answering. Our
model is also data efficient, achieving 99.1% accuracy on CLEVR dataset when
trained on just 10% of the training data.
- Abstract(参考訳): 視覚的質問応答(VQA)は、複数のモーダル(画像、言語など)から得られる情報を理解することの難しさから、近年、機械学習コミュニティで大きな注目を集めている。
VQAでは、一連の質問が一連の画像に基づいて提示され、手元にあるタスクがその答えに到達する。
これを実現するために,形式論理の枠組みを用いたシンボリック推論に基づくアプローチを採用する。
画像と質問は、明示的な推論が行われる象徴表現に変換される。
我々は形式論理フレームワークを提案する。
(i)シーングラフの助けを借りて、画像が論理的背景事実に変換される。
(ii)トランスフォーマーベースのディープラーニングモデルを用いて、質問を一階述語論理節に翻訳する。
(iii)背景知識と述語節の接地を用いて満足度チェックを行い、回答を得る。
提案手法は高い解釈が可能であり, パイプラインの各ステップは人間によって容易に解析できる。
CLEVRとGQAデータセットに対する我々のアプローチを検証する。
我々はCLEVRデータセットの99.6%の精度を芸術モデルに匹敵する精度で達成し、形式論理が視覚的な質問応答に取り組むための実行可能なツールであることを示した。
我々のモデルはデータ効率も良く、トレーニングデータの10%しかトレーニングしていない場合、CLEVRデータセット上で99.1%の精度を達成する。
関連論文リスト
- A Comprehensive Survey on Visual Question Answering Datasets and Algorithms [1.941892373913038]
我々は、VQAデータセットとモデルの現状を慎重に分析し、それらを異なるカテゴリにきれいに分割し、各カテゴリの方法論と特徴を要約する。
VQAモデルの6つの主要なパラダイムを探求する。融合、注意、あるモードからの情報を用いて、別のモードからの情報をフィルタリングする技法、外部知識ベース、構成または推論、グラフモデルである。
論文 参考訳(メタデータ) (2024-11-17T18:52:06Z) - Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - Synthesize Step-by-Step: Tools, Templates and LLMs as Data Generators for Reasoning-Based Chart VQA [9.659820850719413]
我々は,推論能力の強い大規模言語モデル(LLM)を自動データアノテータとして活用する。
私たちの方法における重要な革新は、Synthesize Step-by-Step戦略にあります。
我々は、チャートVQAモデルを大幅に強化し、ChartQAおよびPlotQAデータセットの最先端の精度を達成する。
論文 参考訳(メタデータ) (2024-03-25T03:02:27Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Dynamic Clue Bottlenecks: Towards Interpretable-by-Design Visual Question Answering [58.64831511644917]
本稿では, モデル決定を中間的人間法的な説明に分解する設計モデルを提案する。
我々は、我々の本質的に解釈可能なシステムは、推論に焦点をあてた質問において、同等のブラックボックスシステムよりも4.64%改善できることを示した。
論文 参考訳(メタデータ) (2023-05-24T08:33:15Z) - Neural-Symbolic Models for Logical Queries on Knowledge Graphs [17.290758383645567]
両世界の利点を享受するニューラルシンボリックモデルであるグラフニューラルネットワーククエリ実行器(GNN-QE)を提案する。
GNN-QEは複雑なFOLクエリを、ファジィ集合上の関係投影と論理演算に分解する。
3つのデータセットの実験により、GNN-QEはFOLクエリに応答する以前の最先端モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-05-16T18:39:04Z) - HySTER: A Hybrid Spatio-Temporal Event Reasoner [75.41988728376081]
HySTER: ビデオ内の物理イベントを推論するためのハイブリッド時空間イベント推論器を紹介します。
タスク間を移動可能な一般的な時間的・因果的・物理的ルールに基づく手法を定義する。
この研究は、VideoQAの分野でのインダクティブロジックプログラミングの組み込みの基礎を設定します。
論文 参考訳(メタデータ) (2021-01-17T11:07:17Z) - LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering [4.602329567377897]
本稿では,視覚的質問応答のための透明なニューラルシンボリック推論フレームワークを提案する。
人間のようにステップバイステップで解決し、各ステップで人間の読みやすい正当性を提供する。
GQAデータセットを用いた実験により、LRTAは最先端モデルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2020-11-21T06:39:42Z) - A Simple Approach to Case-Based Reasoning in Knowledge Bases [56.661396189466664]
我々は,古典人工知能(AI)におけるケースベース推論を想起させる,アンフノトレーニングを必要とする知識グラフ(KG)における推論に対する驚くほど単純かつ正確なアプローチを提案する。
ソースエンティティとバイナリ関係が与えられたターゲットエンティティを見つけるタスクを考えてみましょう。
我々の非パラメトリックなアプローチは、与えられた関係を通して類似したソースエンティティを接続する複数のテキストトグラフパスパターンを見つけることによって、クエリ毎にクレープな論理ルールを導出します。
論文 参考訳(メタデータ) (2020-06-25T06:28:09Z) - Logic-Guided Data Augmentation and Regularization for Consistent
Question Answering [55.05667583529711]
本稿では,比較質問に対する応答の精度と整合性を改善する問題に対処する。
提案手法は論理的および言語的知識を利用してラベル付きトレーニングデータを増強し,一貫性に基づく正規化器を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2020-04-21T17:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。