Fugu-MT 論文翻訳(概要): Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

論文の概要: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering

arxiv url: http://arxiv.org/abs/2311.17331v1
Date: Wed, 29 Nov 2023 03:10:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-30 22:38:43.671391
Title: Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering
Title（参考訳）: トップダウン推論に向けて:視覚質問応答のための説明可能なマルチエージェントアプローチ
Authors: Zeqing Wang, Wentao Wan, Runmeng Chen, Qiqing Lao, Minjie Lang and Keze Wang
Abstract要約: 視覚言語モデル(VLM)は、様々なタスクにおいて顕著な進歩を見せている。本稿では,Large Language Models (LLMs) に組み込んだ多言語協調フレームワークを提案する。
参考スコア（独自算出の注目度）: 9.110942712627356
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, Vision Language Models (VLMs) have gained significant attention, exhibiting notable advancements across various tasks by leveraging extensive image-text paired data. However, prevailing VLMs often treat Visual Question Answering (VQA) as perception tasks, employing black-box models that overlook explicit modeling of relationships between different questions within the same visual scene. Moreover, the existing VQA methods that rely on Knowledge Bases (KBs) might frequently encounter biases from limited data and face challenges in relevant information indexing. Attempt to overcome these limitations, this paper introduces an explainable multi-agent collaboration framework by tapping into knowledge embedded in Large Language Models (LLMs) trained on extensive corpora. Inspired by human cognition, our framework uncovers latent information within the given question by employing three agents, i.e., Seeker, Responder, and Integrator, to perform a top-down reasoning process. The Seeker agent generates relevant issues related to the original question. The Responder agent, based on VLM, handles simple VQA tasks and provides candidate answers. The Integrator agent combines information from the Seeker agent and the Responder agent to produce the final VQA answer. Through the above collaboration mechanism, our framework explicitly constructs a multi-view knowledge base for a specific image scene, reasoning answers in a top-down processing manner. We extensively evaluate our method on diverse VQA datasets and VLMs, demonstrating its broad applicability and interpretability with comprehensive experimental results.
Abstract（参考訳）: 近年、視覚言語モデル (VLM) が注目され、画像とテキストのペアデータを活用することで、様々なタスクにおいて顕著な進歩を見せている。しかしながら、一般的なVLMは視覚質問回答(VQA)を知覚タスクとして扱うことが多く、同じ視覚シーン内で異なる質問間の関係を明示的にモデル化するブラックボックスモデルを用いる。さらに、知識ベース(KB)に依存する既存のVQAメソッドは、限られたデータからのバイアスに頻繁に遭遇し、関連する情報インデックスの課題に直面します。本稿では,これらの制約を克服する試みとして,大規模言語モデル(LLM)に組み込んだ多言語協調フレームワークを提案する。人間の認知に刺激されて、我々のフレームワークは、トップダウン推論プロセスを実行するために、シーカー、レスポンダー、インテグレータという3つのエージェントを用いて、与えられた質問に含まれる潜伏情報を明らかにする。 Seekerエージェントは、元の質問に関連する問題を生成する。 VLMに基づくResponderエージェントは、単純なVQAタスクを処理し、候補回答を提供する。インテグレータエージェントは、シーカーエージェントとレスポンダエージェントからの情報を組み合わせて、最終的なVQA応答を生成する。上記の協調機構を通じて,本フレームワークは,トップダウン処理方式で回答を推論する,特定の画像シーンの多視点知識ベースを明示的に構築する。本手法を多種多様なVQAデータセットとVLMに対して広範に評価し,その適用性および解釈性を示すとともに,総合的な実験結果を得た。

関連論文リスト

Rethinking Information Synthesis in Multimodal Question Answering A Multi-Agent Perspective [42.832839189236694]
テキスト,テーブル,画像にまたがるマルチモーダル入力のためのマルチエージェントQAフレームワークであるMAMMQAを提案する。このシステムには2つのVisual Language Model (VLM)エージェントと1つのテキストベースLarge Language Model (LLM)エージェントが含まれる。多様なマルチモーダルQAベンチマークの実験により、我々の協調型マルチエージェントフレームワークは、精度と堅牢性の両方で既存のベースラインを一貫して上回っていることが示された。
論文参考訳（メタデータ） (2025-05-27T07:23:38Z)
Reinforcing Question Answering Agents with Minimalist Policy Gradient Optimization [80.09112808413133]
Mujicaは、質問をサブクエストの非循環グラフに分解するプランナーであり、検索と推論を通じて質問を解決するワーカーである。 MyGOは、従来のポリシー更新を勾配的いいねりの最大推定に置き換える、新しい強化学習手法である。複数のデータセットにまたがる実験結果から,マルチホップQA性能向上における MujicaMyGO の有効性が示された。
論文参考訳（メタデータ） (2025-05-20T18:33:03Z)
UniRVQA: A Unified Framework for Retrieval-Augmented Vision Question Answering via Self-Reflective Joint Training [16.14877145354785]
知識集約型視覚質問のための統一検索型VQAフレームワーク(UniRVQA)を提案する。 UniRVQAは、統一されたフレームワーク内でのきめ細かい知識集約タスクに対して、一般的なマルチモーダル事前訓練モデルを適用する。提案手法は,最先端モデルに対する競争性能を実現し,回答精度が4.7%向上し,ベースMLLMのVQA性能が平均7.5%向上した。
論文参考訳（メタデータ） (2025-04-05T05:42:12Z)
Perceive, Query & Reason: Enhancing Video QA with Question-Guided Temporal Queries [50.47265863322891]
Video Question Answering (ビデオQA)は、ビデオ全体を理解するためにモデルを必要とする、難しいビデオ理解タスクである。近年のMLLM(Multimodal Large Language Models)の進歩は,ビデオQAに特有なコモンセンス推論機能を活用して変化している。本稿では,フレーム単位の視覚知覚とLCMの推論能力の間に疑問を導いた時間的ブリッジを生成する,新しい時間的モデリング手法であるT-Formerを提案する。
論文参考訳（メタデータ） (2024-12-26T17:53:14Z)
AGENT-CQ: Automatic Generation and Evaluation of Clarifying Questions for Conversational Search with LLMs [53.6200736559742]
エージェント-CQは、世代ステージと評価ステージの2つのステージから構成される。 CrowdLLMは、人間のクラウドソーシング判断をシミュレートして、生成された質問や回答を評価する。 ClariQデータセットの実験では、質問と回答の品質を評価するCrowdLLMの有効性が示されている。
論文参考訳（メタデータ） (2024-10-25T17:06:27Z)
Declarative Knowledge Distillation from Large Language Models for Visual Question Answering Datasets [9.67464173044675]
VQA(Visual Question Answering)は、画像に関する質問に答えるタスクである。本稿では,Large Language Models (LLMs) からの宣言的知識蒸留手法を提案する。以上の結果から,LSMから知識を抽出することは,データ駆動型ルール学習のアプローチ以外には有望な方向であることが確認された。
論文参考訳（メタデータ） (2024-10-12T08:17:03Z)
AQA: Adaptive Question Answering in a Society of LLMs via Contextual Multi-Armed Bandit [59.10281630985958]
質問応答(QA)では、異なる質問を異なる回答戦略で効果的に扱うことができる。本稿では,各質問に対して最適なQA戦略を適応的に選択する動的手法を提案する。提案手法は,複数のモジュールを持つQAシステムの適応的オーケストレーションに有効であることを示す。
論文参考訳（メタデータ） (2024-09-20T12:28:18Z)
SK-VQA: Synthetic Knowledge Generation at Scale for Training Context-Augmented Multimodal LLMs [6.879945062426145]
SK-VQA(SK-VQA)は,200万以上の視覚的質問応答対を含む大規模合成マルチモーダルデータセットである。人間の評価を通じて,生成した質問応答対の質と文脈的関連性を確認する。以上の結果から,SK-VQAでトレーニングしたモデルは,コンテキスト対応VQAとマルチモーダルRAG設定の両方において拡張された一般化を示した。
論文参考訳（メタデータ） (2024-06-28T01:14:43Z)
Multi-LLM QA with Embodied Exploration [55.581423861790945]
未知環境における質問応答におけるマルチエンボディードLEMエクスプローラ(MELE)の利用について検討する。複数のLSMベースのエージェントが独立して家庭用環境に関する質問を探索し、回答する。各問合せに対して1つの最終回答を生成するために,異なるアグリゲーション手法を解析する。
論文参考訳（メタデータ） (2024-06-16T12:46:40Z)
LOVA3: Learning to Visual Question Answering, Asking and Assessment [61.51687164769517]
質問への回答、質問、評価は、世界を理解し、知識を得るのに不可欠な3つの人間の特性である。現在のMLLM(Multimodal Large Language Models)は主に質問応答に焦点を当てており、質問や評価スキルの可能性を無視することが多い。 LOVA3は、"Learning tO Visual Question Answering, Asking and Assessment"と名付けられた革新的なフレームワークである。
論文参考訳（メタデータ） (2024-05-23T18:21:59Z)
Advancing Large Multi-modal Models with Explicit Chain-of-Reasoning and Visual Question Generation [34.45251681923171]
本稿では,大規模視覚・言語モデル(VLM)の開発に向けた新しいアプローチを提案する。本稿では,質問に対して必要な知識を習得し,推論プロセスの堅牢性と説明可能性を高めるシステムを提案する。データセットは、キャプション生成のような一般的なタスクから、専門家の知識を必要とする専門的なVQAタスクまで、さまざまなタスクをカバーする。
論文参考訳（メタデータ） (2024-01-18T14:21:56Z)
Filling the Image Information Gap for VQA: Prompting Large Language Models to Proactively Ask Questions [15.262736501208467]
大規模言語モデル(LLM)は、驚くべき推論能力と世界知識の維持を実証する。画像がLLMに見えないため、研究者は画像からテキストに変換してLLMを視覚的疑問推論の手順に変換する。我々は、LLMが積極的に関連する質問をし、画像のより詳細な情報を公開できるフレームワークを設計する。
論文参考訳（メタデータ） (2023-11-20T08:23:39Z)
Improving Zero-shot Visual Question Answering via Large Language Models with Reasoning Question Prompts [22.669502403623166]
本稿では,VQAタスクに対する推論質問プロンプトを提案する。自己完結した質問は、教師なし質問セットモジュールを介して推論された質問プロンプトとして生成する。各推論質問は、元の質問の意図を明確に示す。そして、回答整合性として働く信頼度スコアに関連する候補回答をLSMに入力する。
論文参考訳（メタデータ） (2023-11-15T15:40:46Z)
From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models [111.42052290293965]
大規模言語モデル(LLM)は、新しい言語タスクに対して優れたゼロショット一般化を証明している。視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟性がなく、計算コストがかかる。上述したモダリティとタスクの切断をブリッジできるプロンプトを提供するプラグイン・アンド・プレイモジュールであるemphImg2Promptを提案する。
論文参考訳（メタデータ） (2022-12-21T08:39:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。