Fugu-MT 論文翻訳(概要): Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

論文の概要: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

arxiv url: http://arxiv.org/abs/2311.17331v2
Date: Tue, 14 May 2024 06:19:08 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-15 19:31:02.519821
Title: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
Title（参考訳）: トップダウン推論に向けて:視覚的質問応答に対する説明可能なマルチエージェントアプローチ
Authors: Zeqing Wang, Wentao Wan, Qiqing Lao, Runmeng Chen, Minjie Lang, Keze Wang, Liang Lin,
Abstract要約: 視覚質問応答(VQA)の簡易化のために,視覚言語モデル(VLM)の拡張手法が提案されている。本稿では,人間のようなトップダウン推論を模倣する新しいマルチエージェント協調フレームワークを提案する。
参考スコア（独自算出の注目度）: 45.88079503965459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, several methods have been proposed to augment large Vision Language Models (VLMs) for Visual Question Answering (VQA) simplicity by incorporating external knowledge from knowledge bases or visual clues derived from question decomposition. Although having achieved promising results, these methods still suffer from the challenge that VLMs cannot inherently understand the incorporated knowledge and might fail to generate the optimal answers. Contrarily, human cognition engages visual questions through a top-down reasoning process, systematically exploring relevant issues to derive a comprehensive answer. This not only facilitates an accurate answer but also provides a transparent rationale for the decision-making pathway. Motivated by this cognitive mechanism, we introduce a novel, explainable multi-agent collaboration framework designed to imitate human-like top-down reasoning by leveraging the expansive knowledge of Large Language Models (LLMs). Our framework comprises three agents, i.e., Responder, Seeker, and Integrator, each contributing uniquely to the top-down reasoning process. The VLM-based Responder generates the answer candidates for the question and gives responses to other issues. The Seeker, primarily based on LLM, identifies relevant issues related to the question to inform the Responder and constructs a Multi-View Knowledge Base (MVKB) for the given visual scene by leveraging the understanding capabilities of LLM. The Integrator agent combines information from the Seeker and the Responder to produce the final VQA answer. Through this collaboration mechanism, our framework explicitly constructs an MVKB for a specific visual scene and reasons answers in a top-down reasoning process. Extensive and comprehensive evaluations on diverse VQA datasets and VLMs demonstrate the superior applicability and interpretability of our framework over the existing compared methods.
Abstract（参考訳）: 近年,視覚質問応答(VQA)の簡易化のために,知識ベースからの外部知識や質問分解からの視覚的手がかりを取り入れた視覚言語モデル(VLM)の拡張手法が提案されている。有望な結果を得たにもかかわらず、これらの手法はVLMが本質的に組み込まれた知識を理解できず、最適な答えを得られないという課題に苦しむ。対照的に、人間の認知はトップダウンの推論プロセスを通じて視覚的な質問に関わり、包括的答えを得るための関連する問題を体系的に探求する。これは正確な答えを促進するだけでなく、意思決定の道筋に透明な根拠を与える。この認知メカニズムに動機付け,大規模言語モデル(LLM)の拡張的知識を活用することで,人間のようなトップダウン推論を模倣する,説明可能な新しいマルチエージェント協調フレームワークを導入する。我々のフレームワークは、Responder、Seeker、Integratorの3つのエージェントで構成され、それぞれがトップダウン推論プロセスに一意に寄与する。 VLMベースのResponderは、質問に対する回答候補を生成し、他の問題に応答する。シーカーは、主にLLMに基づいて、応答器に通知する質問に関連する問題を特定し、LLMの理解能力を活用して、与えられた視覚シーンのための多視点知識ベース(MVKB)を構築する。インテグレータエージェントは、SeekerとResponderからの情報を組み合わせて、最終的なVQA応答を生成する。この協調機構を通じて,本フレームワークは,特定の視覚シーンのためのMVKBを明示的に構築し,トップダウン推論プロセスにおける回答の理由付けを行う。多様なVQAデータセットとVLMの包括的な評価は、既存の比較手法よりもフレームワークの適用性と解釈性が優れていることを示している。

関連論文リスト

Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-05-27T07:23:38Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training [16.14877145354785]
知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。 UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
論文参考訳（メタデータ） (2025-04-05T05:42:12Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文参考訳（メタデータ） (2024-10-12T08:17:03Z)
AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文参考訳（メタデータ） (2024-09-20T12:28:18Z)
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQA(SK-VQA)は,200万以上の視覚的質問応答対を含む大規模合成マルチモーダルデータセットである。人間の評価を通じて,生成した質問応答対の質と文脈的関連性を確認する。以上の結果から,SK-VQAでトレーニングしたモデルは,コンテキスト対応VQAとマルチモーダルRAG設定の両方において拡張された一般化を示した。
論文参考訳（メタデータ） (2024-06-28T01:14:43Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文参考訳（メタデータ） (2024-01-18T14:21:56Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。