論文の概要: LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2011.10731v1
- Date: Sat, 21 Nov 2020 06:39:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 22:59:38.704724
- Title: LRTA: A Transparent Neural-Symbolic Reasoning Framework with Modular
Supervision for Visual Question Answering
- Title(参考訳): LRTA:視覚質問応答のためのモジュールスーパービジョンを備えた透明ニューラルネットワーク型推論フレームワーク
- Authors: Weixin Liang, Feiyang Niu, Aishwarya Reganti, Govind Thattai, Gokhan
Tur
- Abstract要約: 本稿では,視覚的質問応答のための透明なニューラルシンボリック推論フレームワークを提案する。
人間のようにステップバイステップで解決し、各ステップで人間の読みやすい正当性を提供する。
GQAデータセットを用いた実験により、LRTAは最先端モデルよりも大きなマージンで優れていることが示された。
- 参考スコア(独自算出の注目度): 4.602329567377897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The predominant approach to visual question answering (VQA) relies on
encoding the image and question with a "black-box" neural encoder and decoding
a single token as the answer like "yes" or "no". Despite this approach's strong
quantitative results, it struggles to come up with intuitive, human-readable
forms of justification for the prediction process. To address this
insufficiency, we reformulate VQA as a full answer generation task, which
requires the model to justify its predictions in natural language. We propose
LRTA [Look, Read, Think, Answer], a transparent neural-symbolic reasoning
framework for visual question answering that solves the problem step-by-step
like humans and provides human-readable form of justification at each step.
Specifically, LRTA learns to first convert an image into a scene graph and
parse a question into multiple reasoning instructions. It then executes the
reasoning instructions one at a time by traversing the scene graph using a
recurrent neural-symbolic execution module. Finally, it generates a full answer
to the given question with natural language justifications. Our experiments on
GQA dataset show that LRTA outperforms the state-of-the-art model by a large
margin (43.1% v.s. 28.0%) on the full answer generation task. We also create a
perturbed GQA test set by removing linguistic cues (attributes and relations)
in the questions for analyzing whether a model is having a smart guess with
superficial data correlations. We show that LRTA makes a step towards truly
understanding the question while the state-of-the-art model tends to learn
superficial correlations from the training data.
- Abstract(参考訳): 視覚的質問応答(VQA)に対する主要なアプローチは、イメージと質問を「ブラックボックス」ニューラルエンコーダで符号化し、単一のトークンを「yes」や「no」のような答えとして復号することにある。
このアプローチの強い定量的な結果にもかかわらず、予測プロセスの直感的で人間可読な正当性を見出すのに苦労している。
この不足に対処するために、vqaを完全な回答生成タスクとして再編成し、モデルが自然言語での予測を正当化する必要がある。
我々は,人間のようにステップバイステップの問題を解決する視覚的質問応答のための,透明な神経記号的推論フレームワークであるlrtaを提案する。
具体的には、LRTAはまず画像をシーングラフに変換し、質問を複数の推論命令に解析することを学ぶ。
次に、繰り返し発生するニューラルシンボリック実行モジュールを使用してシーングラフをトラバースすることで、推論命令を一度に実行する。
最後に、自然言語の正当化によって与えられた質問に対する完全な答えを生成する。
GQAデータセットに対する実験により、LRTAは、全回答生成タスクにおいて、最先端のモデルを大きなマージン(43.1%対28.0%)で上回ります。
また、表層データ相関を用いてモデルがスマートな推測を持っているかどうかを解析するために、言語的手がかり(属性と関係)を除去して摂動型GQAテストセットを作成する。
LRTAは、現状のモデルがトレーニングデータから表面的相関を学習する傾向にあるのに対して、その疑問を真に理解するための一歩を踏み出したことを示す。
関連論文リスト
- Large Vision-Language Models for Remote Sensing Visual Question Answering [0.0]
リモートセンシング視覚質問回答(RSVQA)は、複雑な衛星画像の自然言語質問への答えを解釈する難しいタスクである。
伝統的なアプローチは、しばしば別々の視覚特徴抽出器と言語処理モデルに依存しており、計算集約的で、オープンエンドの質問を扱う能力に制限がある。
RSVQAプロセスの合理化にLVLM(Large Vision-Language Model)を用いた新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-16T18:32:38Z) - Integrating Large Language Models with Graph-based Reasoning for Conversational Question Answering [58.17090503446995]
我々は,テキストや知識グラフ,テーブル,インフォボックスといった異質な情報源から収集された証拠について,文脈における質問の理解と推論の課題を組み合わせた会話型質問応答タスクに着目する。
提案手法はグラフ構造表現を用いて質問とその文脈に関する情報を集約する。
論文 参考訳(メタデータ) (2024-06-14T13:28:03Z) - Open-Set Knowledge-Based Visual Question Answering with Inference Paths [79.55742631375063]
知識に基づく視覚的質問回答(KB-VQA)の目的は、外部知識ベースの助けを借りて質問に対する正しい回答を提供することである。
KB-VQA, Graph pATH ranker (GATHER for brevity) の新しいレトリバーランカパラダイムを提案する。
具体的には、グラフの構築、プルーニング、パスレベルのランク付けが含まれており、正確な回答を検索するだけでなく、推論パスを提供して推論プロセスを説明する。
論文 参考訳(メタデータ) (2023-10-12T09:12:50Z) - Rephrase, Augment, Reason: Visual Grounding of Questions for Vision-Language Models [59.05769810380928]
Rephrase, Augment and Reason (RepARe) は勾配のないフレームワークで、基礎となる視覚言語モデルを用いて画像に関する詳細な情報を抽出する。
その結果、VQAv2では3.85%(絶対)、A-OKVQAでは6.41%、VizWizでは7.94%の増加が見られた。
論文 参考訳(メタデータ) (2023-10-09T16:57:57Z) - Weakly Supervised Visual Question Answer Generation [2.7605547688813172]
視覚情報とキャプションから手続き的に質問応答対を合成的に生成する弱教師付き手法を提案する。
我々は,VQAデータセットの総合的な実験分析を行い,BLEUスコアのSOTA手法を著しく上回る結果を得た。
論文 参考訳(メタデータ) (2023-06-11T08:46:42Z) - Learn to Explain: Multimodal Reasoning via Thought Chains for Science
Question Answering [124.16250115608604]
本稿では,SQA(Science Question Answering)について紹介する。SQA(Science Question Answering)は,21万のマルチモーダルな複数選択質問と多様な科学トピックと,それに対応する講義や説明による回答の注釈からなる新しいベンチマークである。
また,SQAでは,数ショットのGPT-3では1.20%,微調整のUnifiedQAでは3.99%の改善が見られた。
我々の分析は、人間に似た言語モデルは、より少ないデータから学習し、わずか40%のデータで同じパフォーマンスを達成するのに、説明の恩恵を受けることを示している。
論文 参考訳(メタデータ) (2022-09-20T07:04:24Z) - NLX-GPT: A Model for Natural Language Explanations in Vision and
Vision-Language Tasks [18.13793282306575]
自然言語説明(NLE)モデルは、ブラックボックスシステムの意思決定プロセスを説明することを目的としている。
NLX-GPTは汎用的でコンパクトで忠実な言語モデルであり,回答を同時に予測し,それを説明できる。
次に、多回に渡り、汎用的で、データバイアスがあり、複数の形式で説明を評価できる問題に対処する。
論文 参考訳(メタデータ) (2022-03-09T22:57:15Z) - Visual Question Answering based on Formal Logic [9.023122463034332]
VQAでは、一連の質問が一連の画像に基づいて提示され、手元にあるタスクがその答えに到達する。
我々は形式論理の枠組みを用いて記号的推論に基づくアプローチをとる。
提案手法は高い解釈が可能であり, パイプラインの各ステップは人間によって容易に解析できる。
論文 参考訳(メタデータ) (2021-11-08T19:43:53Z) - Understanding Unnatural Questions Improves Reasoning over Text [54.235828149899625]
生テキストに対する複雑な質問応答(CQA)は難しい課題である。
効果的なCQAモデルを学ぶには、大量の人間が注釈付けしたデータが必要である。
我々は、自然の人間生成の質問を非自然の機械生成の質問に投影することで、高品質なプログラマ(パーザ)を学ぶという課題に対処する。
論文 参考訳(メタデータ) (2020-10-19T10:22:16Z) - Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" [49.76230210108583]
本稿では,視覚的質問応答(VQA)の推論的側面をその知覚から分離し,評価する枠組みを提案する。
また,不完全な知覚においても,モデルが推論問題に答えられるような,新しいトップダウンキャリブレーション手法を提案する。
難易度の高いGQAデータセットでは、このフレームワークがよく知られたVQAモデル間の深い非絡み合いの比較に使用される。
論文 参考訳(メタデータ) (2020-06-20T08:48:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。