論文の概要: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering
- arxiv url: http://arxiv.org/abs/2311.17331v1
- Date: Wed, 29 Nov 2023 03:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 22:38:43.671391
- Title: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for
Visual Question Answering
- Title(参考訳): トップダウン推論に向けて:視覚質問応答のための説明可能なマルチエージェントアプローチ
- Authors: Zeqing Wang, Wentao Wan, Runmeng Chen, Qiqing Lao, Minjie Lang and
Keze Wang
- Abstract要約: 視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。
本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.110942712627356
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Vision Language Models (VLMs) have gained significant attention,
exhibiting notable advancements across various tasks by leveraging extensive
image-text paired data. However, prevailing VLMs often treat Visual Question
Answering (VQA) as perception tasks, employing black-box models that overlook
explicit modeling of relationships between different questions within the same
visual scene. Moreover, the existing VQA methods that rely on Knowledge Bases
(KBs) might frequently encounter biases from limited data and face challenges
in relevant information indexing. Attempt to overcome these limitations, this
paper introduces an explainable multi-agent collaboration framework by tapping
into knowledge embedded in Large Language Models (LLMs) trained on extensive
corpora. Inspired by human cognition, our framework uncovers latent information
within the given question by employing three agents, i.e., Seeker, Responder,
and Integrator, to perform a top-down reasoning process. The Seeker agent
generates relevant issues related to the original question. The Responder
agent, based on VLM, handles simple VQA tasks and provides candidate answers.
The Integrator agent combines information from the Seeker agent and the
Responder agent to produce the final VQA answer. Through the above
collaboration mechanism, our framework explicitly constructs a multi-view
knowledge base for a specific image scene, reasoning answers in a top-down
processing manner. We extensively evaluate our method on diverse VQA datasets
and VLMs, demonstrating its broad applicability and interpretability with
comprehensive experimental results.
- Abstract(参考訳): 近年、視覚言語モデル (VLM) が注目され、画像とテキストのペアデータを活用することで、様々なタスクにおいて顕著な進歩を見せている。
しかしながら、一般的なVLMは視覚質問回答(VQA)を知覚タスクとして扱うことが多く、同じ視覚シーン内で異なる質問間の関係を明示的にモデル化するブラックボックスモデルを用いる。
さらに、知識ベース(KB)に依存する既存のVQAメソッドは、限られたデータからのバイアスに頻繁に遭遇し、関連する情報インデックスの課題に直面します。
本稿では,これらの制約を克服する試みとして,大規模言語モデル(LLM)に組み込んだ多言語協調フレームワークを提案する。
人間の認知に刺激されて、我々のフレームワークは、トップダウン推論プロセスを実行するために、シーカー、レスポンダー、インテグレータという3つのエージェントを用いて、与えられた質問に含まれる潜伏情報を明らかにする。
Seekerエージェントは、元の質問に関連する問題を生成する。
VLMに基づくResponderエージェントは、単純なVQAタスクを処理し、候補回答を提供する。
インテグレータエージェントは、シーカーエージェントとレスポンダエージェントからの情報を組み合わせて、最終的なVQA応答を生成する。
上記の協調機構を通じて,本フレームワークは,トップダウン処理方式で回答を推論する,特定の画像シーンの多視点知識ベースを明示的に構築する。
本手法を多種多様なVQAデータセットとVLMに対して広範に評価し,その適用性および解釈性を示すとともに,総合的な実験結果を得た。
関連論文リスト
- AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。
CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。
ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文 参考訳(メタデータ) (2024-10-25T17:06:27Z) - Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。
本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。
以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文 参考訳(メタデータ) (2024-10-12T08:17:03Z) - AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。
本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。
提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-20T12:28:18Z) - Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。
複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。
各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文 参考訳(メタデータ) (2024-06-16T12:46:40Z) - LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。
現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。
LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-05-23T18:21:59Z) - Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。
本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。
データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文 参考訳(メタデータ) (2024-01-18T14:21:56Z) - Filling the Image Information Gap for VQA: Prompting Large Language
Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。
画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。
我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文 参考訳(メタデータ) (2023-11-20T08:23:39Z) - Improving Zero-shot Visual Question Answering via Large Language Models
with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。
自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。
各推論質問は、元の質問の意図を明確に示す。
そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文 参考訳(メタデータ) (2023-11-15T15:40:46Z) - From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language
Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。
視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。
上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文 参考訳(メタデータ) (2022-12-21T08:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。