論文の概要: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2311.17331v1
- Date: Wed, 29 Nov 2023 03:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:38:43.671391
- Title: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering
- Title(参考訳): トップダウン推論に向けて:視覚質問応答のための説明可能なマルチエージェントアプローチ
- Authors: Zeqing Wang, Wentao Wan, Runmeng Chen, Qiqing Lao, Minjie Lang and
Keze Wang
- Abstract要約: 視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。
本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.110942712627356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Language Models (VLMs) have gained significant attention,
exhibiting notable advancements across various tasks by leveraging extensive
image-text paired data. However, prevailing VLMs often treat Visual Question
Answering (VQA) as perception tasks, employing black-box models that overlook
explicit modeling of relationships between different questions within the same
visual scene. Moreover, the existing VQA methods that rely on Knowledge Bases
(KBs) might frequently encounter biases from limited data and face challenges
in relevant information indexing. Attempt to overcome these limitations, this
paper introduces an explainable multi-agent collaboration framework by tapping
into knowledge embedded in Large Language Models (LLMs) trained on extensive
corpora. Inspired by human cognition, our framework uncovers latent information
within the given question by employing three agents, i.e., Seeker, Responder,
and Integrator, to perform a top-down reasoning process. The Seeker agent
generates relevant issues related to the original question. The Responder
agent, based on VLM, handles simple VQA tasks and provides candidate answers.
The Integrator agent combines information from the Seeker agent and the
Responder agent to produce the final VQA answer. Through the above
collaboration mechanism, our framework explicitly constructs a multi-view
knowledge base for a specific image scene, reasoning answers in a top-down
processing manner. We extensively evaluate our method on diverse VQA datasets
and VLMs, demonstrating its broad applicability and interpretability with
comprehensive experimental results.
- Abstract(参考訳): 近年、視覚言語モデル (VLM) が注目され、画像とテキストのペアデータを活用することで、様々なタスクにおいて顕著な進歩を見せている。
しかしながら、一般的なVLMは視覚質問回答(VQA)を知覚タスクとして扱うことが多く、同じ視覚シーン内で異なる質問間の関係を明示的にモデル化するブラックボックスモデルを用いる。
さらに、知識ベース(KB)に依存する既存のVQAメソッドは、限られたデータからのバイアスに頻繁に遭遇し、関連する情報インデックスの課題に直面します。
本稿では,これらの制約を克服する試みとして,大規模言語モデル(LLM)に組み込んだ多言語協調フレームワークを提案する。
人間の認知に刺激されて、我々のフレームワークは、トップダウン推論プロセスを実行するために、シーカー、レスポンダー、インテグレータという3つのエージェントを用いて、与えられた質問に含まれる潜伏情報を明らかにする。
Seekerエージェントは、元の質問に関連する問題を生成する。
VLMに基づくResponderエージェントは、単純なVQAタスクを処理し、候補回答を提供する。
インテグレータエージェントは、シーカーエージェントとレスポンダエージェントからの情報を組み合わせて、最終的なVQA応答を生成する。
上記の協調機構を通じて,本フレームワークは,トップダウン処理方式で回答を推論する,特定の画像シーンの多視点知識ベースを明示的に構築する。
本手法を多種多様なVQAデータセットとVLMに対して広範に評価し,その適用性および解釈性を示すとともに,総合的な実験結果を得た。
関連論文リスト
- From Image to Language: A Critical Analysis of Visual Question Answering
(VQA) Approaches, Challenges, and Opportunities [2.259291861960906]
この研究は、VQAデータセットとフィールドの歴史に関するメソッドの複雑さを掘り下げる、VQA(Visual Question Answering)の領域における調査である。
我々はさらにVQAをマルチモーダルな質問応答に一般化し、VQAに関連する課題を探求し、今後の調査に向けた一連のオープンな問題を提示する。
論文 参考訳(メタデータ) (2023-11-01T05:39:41Z) - UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - LOIS: Looking Out of Instance Semantics for Visual Question Answering [17.076621453814926]
画像中のオブジェクトの意味論の因果関係を理解するために,ボックス境界のないモデルフレームワークを提案する。
我々は、インスタンスオブジェクトと背景情報の間のより洗練された、より深い視覚的意味関係をモデル化するための相互関係注意モジュールを実装した。
提案するアテンションモデルにより,重要な単語関連質問に焦点をあてることで,より健全な画像領域を解析することができる。
論文 参考訳(メタデータ) (2023-07-26T12:13:00Z) - AVIS: Autonomous Visual Information Seeking with Large Language Model
Agent [123.75169211547149]
本稿では,視覚的質問応答フレームワークAVISを提案する。
本手法は,LLM(Large Language Model)を利用して外部ツールの利用を動的に強化する。
AVIS は Infoseek や OK-VQA などの知識集約型視覚質問応答ベンチマークの最先端結果を達成する。
論文 参考訳(メタデータ) (2023-06-13T20:50:22Z) - End-to-end Knowledge Retrieval with Multi-modal Queries [50.01264794081951]
ReMuQは、テキストと画像のクエリからコンテンツを統合することで、大規模なコーパスから知識を取得するシステムを必要とする。
本稿では,入力テキストや画像を直接処理し,関連する知識をエンドツーエンドで検索する検索モデルReViz'を提案する。
ゼロショット設定下での2つのデータセットの検索において,優れた性能を示す。
論文 参考訳(メタデータ) (2023-06-01T08:04:12Z) - Towards Complex Document Understanding By Discrete Reasoning [77.91722463958743]
VQA(Document Visual Question Answering)は、自然言語による質問に答えるために、視覚的に豊富なドキュメントを理解することを目的としている。
我々は3,067の文書ページと16,558の質問応答ペアからなる新しいドキュメントVQAデータセットTAT-DQAを紹介する。
我々は,テキスト,レイアウト,視覚画像など,多要素の情報を考慮に入れたMHSTという新しいモデルを開発し,異なるタイプの質問にインテリジェントに対処する。
論文 参考訳(メタデータ) (2022-07-25T01:43:19Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z) - Knowledge-Routed Visual Question Reasoning: Challenges for Deep
Representation Embedding [140.5911760063681]
VQAモデル評価のためのナレッジルーティング視覚質問推論という新しいデータセットを提案する。
視覚ゲノムシーングラフと外部知識ベースの両方に基づいて,制御プログラムを用いて質問応答対を生成する。
論文 参考訳(メタデータ) (2020-12-14T00:33:44Z) - Mucko: Multi-Layer Cross-Modal Knowledge Reasoning for Fact-based Visual
Question Answering [26.21870452615222]
FVQAは、画像に関する質問に答えるために、可視コンテンツ以外の外部知識を必要とする。
問題指向で情報補完的な証拠をどうやって捉えるかは、この問題を解決する上で重要な課題である。
与えられた問題に最も関係のある異なる層から証拠を捉えるために,モダリティを考慮した異種グラフ畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2020-06-16T11:03:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。