論文の概要: II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering
- arxiv url: http://arxiv.org/abs/2402.11058v2
- Date: Fri, 31 May 2024 17:30:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-03 19:52:35.294491
- Title: II-MMR: Identifying and Improving Multi-modal Multi-hop Reasoning in Visual Question Answering
- Title(参考訳): II-MMR:視覚質問応答におけるマルチモーダルマルチホップ推論の同定と改善
- Authors: Jihyung Kil, Farideh Tavazoee, Dongyeop Kang, Joo-Kyung Kim,
- Abstract要約: VQA(Visual Question Answering)におけるマルチモーダルマルチホップ推論の同定と改善のための新しいアイデアであるII-MMRを提案する。
II-MMRは、画像でVQA質問を受け取り、2つの新しい言語プロンプトを使用して答えに到達するための推論経路を見つける。
II-MMRは、ゼロショット設定と微調整設定の両方において、すべての推論ケースで有効性を示す。
- 参考スコア(独自算出の注目度): 15.65067042725113
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) often involves diverse reasoning scenarios across Vision and Language (V&L). Most prior VQA studies, however, have merely focused on assessing the model's overall accuracy without evaluating it on different reasoning cases. Furthermore, some recent works observe that conventional Chain-of-Thought (CoT) prompting fails to generate effective reasoning for VQA, especially for complex scenarios requiring multi-hop reasoning. In this paper, we propose II-MMR, a novel idea to identify and improve multi-modal multi-hop reasoning in VQA. In specific, II-MMR takes a VQA question with an image and finds a reasoning path to reach its answer using two novel language promptings: (i) answer prediction-guided CoT prompt, or (ii) knowledge triplet-guided prompt. II-MMR then analyzes this path to identify different reasoning cases in current VQA benchmarks by estimating how many hops and what types (i.e., visual or beyond-visual) of reasoning are required to answer the question. On popular benchmarks including GQA and A-OKVQA, II-MMR observes that most of their VQA questions are easy to answer, simply demanding "single-hop" reasoning, whereas only a few questions require "multi-hop" reasoning. Moreover, while the recent V&L model struggles with such complex multi-hop reasoning questions even using the traditional CoT method, II-MMR shows its effectiveness across all reasoning cases in both zero-shot and fine-tuning settings.
- Abstract(参考訳): VQA(Visual Question Answering)は、視覚と言語(V&L)にまたがる様々な推論シナリオを含むことが多い。
しかしながら、以前のVQA研究のほとんどは、異なる推論ケースで評価することなく、モデル全体の精度を評価することにのみ焦点を絞っている。
さらに、いくつかの最近の研究は、特にマルチホップ推論を必要とする複雑なシナリオにおいて、従来のCoT(Chain-of-Thought)がVQAに対して効果的な推論を起こさないことを観察している。
本稿では,VQAにおけるマルチモーダルマルチホップ推論を識別・改善するための新しいアイデアであるII-MMRを提案する。
具体的には、II-MMRは画像でVQA質問を受け取り、2つの新しい言語プロンプトを使って答えに到達する理由を見つける。
一 予測誘導CoTプロンプトの回答
(二 知識三重化指示書
II-MMRはこの経路を分析して、現在のVQAベンチマークで異なる推論ケースを特定する。
GQA や A-OKVQA などの一般的なベンチマークでは、II-MMR は VQA のほとんどの質問は答えが簡単であり、単に "シングルホップ" の推論を要求する。
さらに,最近のV&Lモデルでは,従来のCoT法でも複雑なマルチホップ推論問題に苦慮しているが,II-MMRは,ゼロショットと微調整の両方ですべての推論ケースで有効性を示す。
関連論文リスト
- GenDec: A robust generative Question-decomposition method for Multi-hop
reasoning [32.12904215053187]
マルチホップQAには、複雑な質問に答えるステップバイステップの推論が含まれる。
マルチホップ質問応答における既存の大規模言語モデル(LLM)推論能力は現在も探索が続けられている。
LLMが正しい結論に達するために望ましい推論連鎖に従うかどうかは不明である。
論文 参考訳(メタデータ) (2024-02-17T02:21:44Z) - Causal Reasoning through Two Layers of Cognition for Improving
Generalization in Visual Question Answering [28.071906755200043]
VQA(Visual Question Answering)の一般化は、トレーニングディストリビューション以外のコンテキストによるイメージに関する質問に答えるモデルを必要とする。
本稿では,因果推論因子を強調することでマルチモーダル予測を改善する認知経路VQA(CopVQA)を提案する。
CopVQAは、PathVQAデータセット上の新しい最先端(SOTA)と、モデルサイズの4分の1のVQA-CPv2、VQAv2、VQA RAD上の現在のSOTAと同等の精度を達成する。
論文 参考訳(メタデータ) (2023-10-09T05:07:58Z) - HOP, UNION, GENERATE: Explainable Multi-hop Reasoning without Rationale
Supervision [118.0818807474809]
本研究は、合理的な監督なしに説明可能なマルチホップQAシステムを訓練するための原則的確率論的アプローチを提案する。
提案手法は,集合としての有理を明示的にモデル化し,文書と文間の相互作用を文書内で捉えることによって,マルチホップ推論を行う。
論文 参考訳(メタデータ) (2023-05-23T16:53:49Z) - Answering Questions by Meta-Reasoning over Multiple Chains of Thought [53.55653437903948]
MCR(Multi-Chain Reasoning)は,大規模言語モデルに対して,複数の思考連鎖に対するメタ推論を促す手法である。
MCRは、異なる推論連鎖を調べ、それら間で情報を混合し、説明を生成し、答えを予測する際に最も関係のある事実を選択する。
論文 参考訳(メタデータ) (2023-04-25T17:27:37Z) - Understanding and Improving Zero-shot Multi-hop Reasoning in Generative
Question Answering [85.79940770146557]
マルチホップ質問を複数の単一ホップ質問に分解する。
これらの対の見かけ上同一の問合せ連鎖について、QAモデルの答えに顕著な矛盾が認められる。
シングルホップの質問だけを訓練すると、モデルはマルチホップの質問に対してあまり一般化しない。
論文 参考訳(メタデータ) (2022-10-09T11:48:07Z) - Prompt-based Conservation Learning for Multi-hop Question Answering [11.516763652013005]
マルチホップ質問応答には、複雑な質問に答えるために複数の文書を推論する必要がある。
既存のマルチホップQAメソッドの多くは、サブクエストのかなりの部分に答えられません。
マルチホップQAのためのPromptベースの保存学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-09-14T20:50:46Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - Interpretable AMR-Based Question Decomposition for Multi-hop Question
Answering [12.35571328854374]
マルチホップQAのための抽象的意味表現(QDAMR)に基づく質問分解手法を提案する。
マルチホップ質問をより単純なサブクエストに分解し、順番に答える。
HotpotQAの実験結果から,本手法は解釈可能な推論と競合することが示された。
論文 参考訳(メタデータ) (2022-06-16T23:46:33Z) - Ask to Understand: Question Generation for Multi-hop Question Answering [11.626390908264872]
マルチホップ質問回答 (Multi-hop Question Answering, QA) は、複数の文書から散乱した手がかりを見つけ、推論することで複雑な質問に答えることを要求する。
質問生成(QG)の観点から,マルチホップQAを補完する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T04:02:29Z) - Multi-hop Question Generation with Graph Convolutional Network [58.31752179830959]
マルチホップ質問生成(Multi-hop Question Generation, QG)は,異なる段落から散在する複数の証拠を集約・推論することで,回答に関連する質問を生成することを目的とする。
複数のホップでコンテキストエンコーディングを行うMulQG(Multi-Hop volution Fusion Network for Question Generation)を提案する。
提案モデルでは,高い完全性を有する流動的な質問を生成することができ,マルチホップ評価において,最強のベースラインを20.8%向上させることができる。
論文 参考訳(メタデータ) (2020-10-19T06:15:36Z) - Reinforced Multi-task Approach for Multi-hop Question Generation [47.15108724294234]
我々は,その文脈における支援事実に基づいて,関連する質問を生成することを目的としたマルチホップ質問生成を取り上げている。
我々は,質問生成を導くために,回答認識支援事実予測の補助タスクを備えたマルチタスク学習を採用する。
マルチホップ質問応答データセットHotPotQAの実験を通して,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-04-05T10:16:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。