論文の概要: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
- arxiv url: http://arxiv.org/abs/2311.17331v2
- Date: Tue, 14 May 2024 06:19:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-15 19:31:02.519821
- Title: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
- Title(参考訳): トップダウン推論に向けて:視覚的質問応答に対する説明可能なマルチエージェントアプローチ
- Authors: Zeqing Wang, Wentao Wan, Qiqing Lao, Runmeng Chen, Minjie Lang, Keze Wang, Liang Lin,
- Abstract要約: 視覚質問応答(VQA)の簡易化のために,視覚言語モデル(VLM)の拡張手法が提案されている。
本稿では,人間のようなトップダウン推論を模倣する新しいマルチエージェント協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 45.88079503965459
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, several methods have been proposed to augment large Vision Language Models (VLMs) for Visual Question Answering (VQA) simplicity by incorporating external knowledge from knowledge bases or visual clues derived from question decomposition. Although having achieved promising results, these methods still suffer from the challenge that VLMs cannot inherently understand the incorporated knowledge and might fail to generate the optimal answers. Contrarily, human cognition engages visual questions through a top-down reasoning process, systematically exploring relevant issues to derive a comprehensive answer. This not only facilitates an accurate answer but also provides a transparent rationale for the decision-making pathway. Motivated by this cognitive mechanism, we introduce a novel, explainable multi-agent collaboration framework designed to imitate human-like top-down reasoning by leveraging the expansive knowledge of Large Language Models (LLMs). Our framework comprises three agents, i.e., Responder, Seeker, and Integrator, each contributing uniquely to the top-down reasoning process. The VLM-based Responder generates the answer candidates for the question and gives responses to other issues. The Seeker, primarily based on LLM, identifies relevant issues related to the question to inform the Responder and constructs a Multi-View Knowledge Base (MVKB) for the given visual scene by leveraging the understanding capabilities of LLM. The Integrator agent combines information from the Seeker and the Responder to produce the final VQA answer. Through this collaboration mechanism, our framework explicitly constructs an MVKB for a specific visual scene and reasons answers in a top-down reasoning process. Extensive and comprehensive evaluations on diverse VQA datasets and VLMs demonstrate the superior applicability and interpretability of our framework over the existing compared methods.
- Abstract(参考訳): 近年,視覚質問応答(VQA)の簡易化のために,知識ベースからの外部知識や質問分解からの視覚的手がかりを取り入れた視覚言語モデル(VLM)の拡張手法が提案されている。
有望な結果を得たにもかかわらず、これらの手法はVLMが本質的に組み込まれた知識を理解できず、最適な答えを得られないという課題に苦しむ。
対照的に、人間の認知はトップダウンの推論プロセスを通じて視覚的な質問に関わり、包括的答えを得るための関連する問題を体系的に探求する。
これは正確な答えを促進するだけでなく、意思決定の道筋に透明な根拠を与える。
この認知メカニズムに動機付け,大規模言語モデル(LLM)の拡張的知識を活用することで,人間のようなトップダウン推論を模倣する,説明可能な新しいマルチエージェント協調フレームワークを導入する。
我々のフレームワークは、Responder、Seeker、Integratorの3つのエージェントで構成され、それぞれがトップダウン推論プロセスに一意に寄与する。
VLMベースのResponderは、質問に対する回答候補を生成し、他の問題に応答する。
シーカーは、主にLLMに基づいて、応答器に通知する質問に関連する問題を特定し、LLMの理解能力を活用して、与えられた視覚シーンのための多視点知識ベース(MVKB)を構築する。
インテグレータエージェントは、SeekerとResponderからの情報を組み合わせて、最終的なVQA応答を生成する。
この協調機構を通じて,本フレームワークは,特定の視覚シーンのためのMVKBを明示的に構築し,トップダウン推論プロセスにおける回答の理由付けを行う。
多様なVQAデータセットとVLMの包括的な評価は、既存の比較手法よりもフレームワークの適用性と解釈性が優れていることを示している。
関連論文リスト
- SOK-Bench: A Situated Video Reasoning Benchmark with Aligned Open-World Knowledge [60.76719375410635]
44Kの質問と10Kの状況からなる新しいベンチマーク(SOK-Bench)を提案する。
推論プロセスは、位置する知識と問題解決のための一般的な知識を理解し、適用するために必要である。
質問応答ペアと推論プロセスを生成し,最後に品質保証に関する手作業によるレビューを行った。
論文 参考訳(メタデータ) (2024-05-15T21:55:31Z) - Interactive-KBQA: Multi-Turn Interactions for Knowledge Base Question
Answering with Large Language Models [8.316367927545373]
Interactive-KBQAは知識ベース(KB)との直接インタラクションを通じて論理形式を生成するように設計されたフレームワークである
提案手法は,WebQuestionsSP, ComplexWebQuestions, KQA Pro, MetaQAデータセット上での競合結果を実現する。
論文 参考訳(メタデータ) (2024-02-23T06:32:18Z) - keqing: knowledge-based question answering is a nature chain-of-thought
mentor of LLM [27.76205400533089]
大規模言語モデル(LLM)は様々な自然言語処理(NLP)タスク、特に質問応答において顕著な性能を示した。
本稿では,知識グラフ上の質問関連構造化情報を取得するために,ChatGPTなどのLLMを支援する新しいフレームワークを提案する。
KBQAデータセットの実験結果から,Keqingは競合性能を達成でき,各質問に答える論理を説明できることがわかった。
論文 参考訳(メタデータ) (2023-12-31T08:39:04Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - Search-in-the-Chain: Interactively Enhancing Large Language Models with
Search for Knowledge-intensive Tasks [121.74957524305283]
本稿では、情報検索(IR)とLarge Language Model(LLM)のインタラクションのための、textbfSearch-in-the-Chain(SearChain)という新しいフレームワークを提案する。
実験の結果、SearChainは複雑な知識集約タスクにおける最先端のベースラインを上回っていることがわかった。
論文 参考訳(メタデータ) (2023-04-28T10:15:25Z) - Prophet: Prompting Large Language Models with Complementary Answer
Heuristics for Knowledge-based Visual Question Answering [30.858737348472626]
知識に基づく視覚的質問応答(VQA)は、質問に答えるために、画像以外の外部知識を必要とする。
近年の研究では,暗黙の知識エンジンとして強力な大規模言語モデル (LLM) を用いることで,回答に必要な知識を獲得している。
本稿では,知識に基づくVQAの解答をLCMに促すための,概念的にシンプルで柔軟な,汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-03T13:05:15Z) - See, Think, Confirm: Interactive Prompting Between Vision and Language
Models for Knowledge-based Visual Reasoning [60.43585179885355]
本稿では,知識に基づく視覚推論のための新しいフレームワークであるInteractive Prompting Visual Reasoner(IPVR)を提案する。
IPVRには3つのステージがある。
我々は,知識に基づく視覚的推論データセットについて実験を行った。
論文 参考訳(メタデータ) (2023-01-12T18:59:50Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - KAT: A Knowledge Augmented Transformer for Vision-and-Language [56.716531169609915]
我々は、OK-VQAのオープンドメインマルチモーダルタスクにおいて、最先端の強力な結果をもたらす新しいモデルである知識拡張トランスフォーマー(KAT)を提案する。
提案手法は,エンド・ツー・エンドのエンコーダ・デコーダアーキテクチャにおいて暗黙的かつ明示的な知識を統合しつつ,回答生成時に両知識源を共同で推論する。
我々の分析では、モデル予測の解釈可能性の向上に、明示的な知識統合のさらなる利点が見られる。
論文 参考訳(メタデータ) (2021-12-16T04:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。