論文の概要: Understanding Multi-Agent Reasoning with Large Language Models for Cartoon VQA
- arxiv url: http://arxiv.org/abs/2601.03073v1
- Date: Tue, 06 Jan 2026 14:58:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.98274
- Title: Understanding Multi-Agent Reasoning with Large Language Models for Cartoon VQA
- Title(参考訳): カートゥーンVQAのための大規模言語モデルによるマルチエージェント推論の理解
- Authors: Tong Wu, Thanet Markchom,
- Abstract要約: フレームワークは視覚エージェント、言語エージェント、批評家エージェントの3つの特殊エージェントで構成されている。
このフレームワークは2つの漫画ベースのVQAデータセット、PororoとSimpsonsで体系的に評価された。
- 参考スコア(独自算出の注目度): 5.420859170285012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Question Answering (VQA) for stylised cartoon imagery presents challenges, such as interpreting exaggerated visual abstraction and narrative-driven context, which are not adequately addressed by standard large language models (LLMs) trained on natural images. To investigate this issue, a multi-agent LLM framework is introduced, specifically designed for VQA tasks in cartoon imagery. The proposed architecture consists of three specialised agents: visual agent, language agent and critic agent, which work collaboratively to support structured reasoning by integrating visual cues and narrative context. The framework was systematically evaluated on two cartoon-based VQA datasets: Pororo and Simpsons. Experimental results provide a detailed analysis of how each agent contributes to the final prediction, offering a deeper understanding of LLM-based multi-agent behaviour in cartoon VQA and multimodal inference.
- Abstract(参考訳): スタイリングされた漫画画像に対する視覚質問回答(VQA)は、誇張された視覚的抽象と物語駆動コンテキストを解釈するなど、自然画像に基づいて訓練された標準の大規模言語モデル(LLM)によって適切に対処されない課題を提示する。
この問題を調査するために,漫画画像のVQAタスクに特化して設計されたマルチエージェントLLMフレームワークが導入された。
提案アーキテクチャは,視覚エージェント,言語エージェント,批評家エージェントの3つの特殊エージェントから構成される。
このフレームワークは2つの漫画ベースのVQAデータセット、PororoとSimpsonsで体系的に評価された。
実験の結果、各エージェントが最終予測にどう貢献するかを詳細に分析し、漫画VQAとマルチモーダル推論におけるLLMに基づくマルチエージェント動作のより深い理解を提供する。
関連論文リスト
- Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning [3.588567067449924]
マルチイメージ推論のための協調エージェントベースフレームワークを提案する。
提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。
我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
論文 参考訳(メタデータ) (2025-08-01T06:39:15Z) - A Neurosymbolic Agent System for Compositional Visual Reasoning [31.649454833851863]
既存の視覚言語モデル (VLM) は、構成的な視覚的推論によって依然として挑戦されている。
本稿では,効率的な構成的視覚推論のための視覚・言語エージェントシステムの開発に,ニューロシンボリックアプローチを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:55:55Z) - VoQA: Visual-only Question Answering [7.251596370310251]
本稿では,視覚のみの質問回答(VoQA)を提案する。
これは、視覚的に埋め込まれたテキストの質問を見つけ、認識し、推論するモデルを必要とする。
GRT-SFT(Guid Response Triggering Supervised Fine-tuning)は,視覚的入力に基づくステップバイステップ推論を行うための構造的微調整戦略である。
論文 参考訳(メタデータ) (2025-05-20T11:37:49Z) - Instruction-Guided Fusion of Multi-Layer Visual Features in Large Vision-Language Models [50.98559225639266]
6つのタスクカテゴリにまたがる18のベンチマークを用いて,異なるエンコーダ層からの視覚的特徴の寄与について検討した。
この結果から,多層構造はタスク依存性の相補的な長所を提供し,均一な融合が最適以下の性能をもたらすことが明らかとなった。
テキスト命令に基づいて動的に多層視覚特徴を統合する命令誘導型視覚アグリゲータを提案する。
論文 参考訳(メタデータ) (2024-12-26T05:41:31Z) - VipAct: Visual-Perception Enhancement via Specialized VLM Agent Collaboration and Tool-use [74.39058448757645]
視覚言語モデル(VLM)を強化するエージェントフレームワークであるVipActを提案する。
VipActは、タスク要求の分析、計画、調整を管理するオーケストレータエージェントと、特定のタスクを処理する専門エージェントで構成される。
様々な視覚認知タスクを特徴とするベンチマーク上でのVipActの評価を行い,実験結果から大幅な性能向上が得られた。
論文 参考訳(メタデータ) (2024-10-21T18:10:26Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z) - On Advances in Text Generation from Images Beyond Captioning: A Case
Study in Self-Rationalization [89.94078728495423]
近年のモダリティ,CLIP画像表現,言語モデルの拡張は,マルチモーダル入力によるタスクのマルチモーダル自己調整を一貫して改善していないことを示す。
画像キャプションを超えて画像やテキストからテキストを生成するために構築可能なバックボーンモデリング手法が提案されている。
論文 参考訳(メタデータ) (2022-05-24T00:52:40Z) - VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks
for Visual Question Answering [79.22069768972207]
本稿では,VQA-GNNモデルを提案する。VQA-GNNは,非構造化知識と構造化知識の双方向融合を行い,統一知識表現を得る。
具体的には,シーングラフとコンセプトグラフを,QAコンテキストを表すスーパーノードを介して相互接続する。
課題2つのVQAタスクにおいて,本手法はVCRが3.2%,GQAが4.6%,強いベースラインVQAが3.2%向上し,概念レベルの推論を行う上での強みが示唆された。
論文 参考訳(メタデータ) (2022-05-23T17:55:34Z) - Achieving Human Parity on Visual Question Answering [67.22500027651509]
The Visual Question Answering (VQA) task using both visual image and language analysis to answer a textual question to a image。
本稿では,人間がVQAで行ったのと同じような,あるいは少しでも良い結果が得られるAliceMind-MMUに関する最近の研究について述べる。
これは,(1)包括的視覚的・テキスト的特徴表現による事前学習,(2)参加する学習との効果的な相互モーダル相互作用,(3)複雑なVQAタスクのための専門的専門家モジュールを用いた新たな知識マイニングフレームワークを含む,VQAパイプラインを体系的に改善することで達成される。
論文 参考訳(メタデータ) (2021-11-17T04:25:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。