論文の概要: Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning
- arxiv url: http://arxiv.org/abs/2508.00356v1
- Date: Fri, 01 Aug 2025 06:39:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.756866
- Title: Analyze-Prompt-Reason: A Collaborative Agent-Based Framework for Multi-Image Vision-Language Reasoning
- Title(参考訳): Analyze-Prompt-Reason:マルチイメージビジョンランゲージ推論のための協調エージェントベースフレームワーク
- Authors: Angelos Vlachos, Giorgos Filandrianos, Maria Lymperaiou, Nikolaos Spanos, Ilias Mitsouras, Vasileios Karampinis, Athanasios Voulodimos,
- Abstract要約: マルチイメージ推論のための協調エージェントベースフレームワークを提案する。
提案手法は,多様なデータセットやタスク形式にまたがるマルチモーダル推論のインターリーブ化という課題に対処する。
我々は2025年のMIRAGE Challengeから18種類の多様なデータセットについて評価を行った。
- 参考スコア(独自算出の注目度): 3.588567067449924
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a Collaborative Agent-Based Framework for Multi-Image Reasoning. Our approach tackles the challenge of interleaved multimodal reasoning across diverse datasets and task formats by employing a dual-agent system: a language-based PromptEngineer, which generates context-aware, task-specific prompts, and a VisionReasoner, a large vision-language model (LVLM) responsible for final inference. The framework is fully automated, modular, and training-free, enabling generalization across classification, question answering, and free-form generation tasks involving one or multiple input images. We evaluate our method on 18 diverse datasets from the 2025 MIRAGE Challenge (Track A), covering a broad spectrum of visual reasoning tasks including document QA, visual comparison, dialogue-based understanding, and scene-level inference. Our results demonstrate that LVLMs can effectively reason over multiple images when guided by informative prompts. Notably, Claude 3.7 achieves near-ceiling performance on challenging tasks such as TQA (99.13% accuracy), DocVQA (96.87%), and MMCoQA (75.28 ROUGE-L). We also explore how design choices-such as model selection, shot count, and input length-influence the reasoning performance of different LVLMs.
- Abstract(参考訳): マルチイメージ推論のための協調エージェントベースフレームワークを提案する。
言語ベースのPromptEngineerは、コンテキスト認識、タスク固有のプロンプトを生成するもので、VisionReasonerは、視覚言語モデル(LVLM)で最終推論を行う。
このフレームワークは完全に自動化され、モジュール化され、トレーニングなしで、分類、質問応答、および1つまたは複数の入力画像を含むフリーフォーム生成タスクを一般化することができる。
我々は,2025年のMIRAGE Challenge (Track A) から得られた18種類の多様なデータセットに対して,文書QA,視覚比較,対話に基づく理解,シーンレベルの推論を含む幅広い視覚的推論タスクについて検討した。
以上の結果から,LVLMは情報的プロンプトによって誘導される場合,複数の画像に対して効果的に推論可能であることが示唆された。
特に、Claude 3.7は、TQA (99.13%の精度)、DocVQA (96.87%)、MMCoQA (75.28 ROUGE-L)といった課題のタスクにおいて、ほぼシーリングのパフォーマンスを達成している。
また、モデル選択、ショット数、入力長の影響などの設計選択が、異なるLVLMの推論性能に与える影響についても検討する。
関連論文リスト
- Exploring Scalable Unified Modeling for General Low-Level Vision [39.89755374452788]
低レベルの視覚は、画像復元、強化、スタイリゼーション、特徴抽出を含む幅広いタスクを含む。
このような多様なタスクにまたがる統合モデリングの課題に対処するため、我々はVisual Task Promptベースの画像処理フレームワークを提案する。
我々は、統一された低レベル視覚モデルGenLVを開発し、その性能を複数の代表タスクで評価する。
論文 参考訳(メタデータ) (2025-07-20T03:22:52Z) - ImageScope: Unifying Language-Guided Image Retrieval via Large Multimodal Model Collective Reasoning [62.61187785810336]
ImageScopeは、トレーニング不要で3段階のフレームワークで、言語誘導の画像検索タスクを統合する。
最初の段階では,様々な意味的粒度のレベルにまたがって探索意図を合成することにより,フレームワークの堅牢性を向上させる。
第2段階と第3段階において、述語命題を局所的に検証し、一括評価を行うことにより、検索結果を反映する。
論文 参考訳(メタデータ) (2025-03-13T08:43:24Z) - VOILA: Evaluation of MLLMs For Perceptual Understanding and Analogical Reasoning [63.0285363282581]
MLLM(Multimodal Large Language Models)は、視覚情報とテキスト情報を統合するための強力なツールとなっている。
本稿では,MLLMの知覚的理解と抽象的関係推論を評価するためのベンチマークVOILAを紹介する。
我々は,現在のMLLMが画像間関係の理解に苦慮し,高レベルの関係推論において限られた能力を示すことを明らかにした。
論文 参考訳(メタデータ) (2025-02-25T23:36:19Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Task Preference Optimization: Improving Multimodal Large Language Models with Vision Task Alignment [58.94611347128066]
マルチモーダル大言語モデル(MLLM)は、視覚のきめ細やかな理解に苦しむ。
近年の研究では、ツールの使用や視覚的なタスクを自動回帰フレームワークに統一する手法が開発されており、多くの場合、全体的なマルチモーダルパフォーマンスを犠牲にしている。
本稿では,典型的な視覚的タスクから派生した微分可能なタスク選好を利用する新しい手法であるタスク選好最適化(TPO)を提案する。
論文 参考訳(メタデータ) (2024-12-26T18:56:05Z) - Griffon-G: Bridging Vision-Language and Vision-Centric Tasks via Large Multimodal Models [27.45225442048711]
CCMD-8Mを導入し、視覚中心のタスクと視覚言語タスクを統一する際のデータ障壁を克服する。
また、Griffon-Gは、単一のエンドツーエンドパラダイム内の視覚中心タスクと視覚言語タスクの両方に対処する一般的な大規模マルチモーダルモデルである。
論文 参考訳(メタデータ) (2024-10-21T16:30:29Z) - MMIU: Multimodal Multi-image Understanding for Evaluating Large Vision-Language Models [76.1999277491816]
MMIU(Multimodal Multi-image Understanding)は、LVLM(Large Vision-Language Models)を評価するための総合的な評価スイートである。
MMIUには7種類のマルチイメージ関係、52のタスク、77Kのイメージ、1Kの微調整された複数選択質問が含まれている。
オープンソースモデルとプロプライエタリモデルの両方を含む24種類のLVLMを評価した結果,マルチイメージ理解における大きな課題が明らかになった。
論文 参考訳(メタデータ) (2024-08-05T17:56:41Z) - VisionLLM v2: An End-to-End Generalist Multimodal Large Language Model for Hundreds of Vision-Language Tasks [89.24440488456405]
VisionLLM v2は、エンドツーエンドの汎用マルチモーダル大モデル(MLLM)である。
単一のフレームワーク内で視覚的知覚、理解、生成を統一する。
論文 参考訳(メタデータ) (2024-06-12T16:44:50Z) - Exploring the Transferability of Visual Prompting for Multimodal Large Language Models [47.162575147632396]
Transferable Visual Prompting (TVP) は、異なるモデルに転送可能な視覚的プロンプトを生成するためのシンプルで効果的なアプローチである。
本稿では,既存の視覚的プロンプト手法のクロスモデル特徴劣化問題に対処し,学習したプロンプトの伝達可能性を高めるための2つの戦略を提案する。
論文 参考訳(メタデータ) (2024-04-17T09:39:07Z) - Towards Top-Down Reasoning: An Explainable Multi-Agent Approach for Visual Question Answering [47.668572102657684]
本稿では,視覚言語モデル(VLM)の能力を高めるために,LLM(Large Language Models)の拡張的知識を活用することで,新しいマルチエージェントコラボレーションフレームワークを導入する。
論文 参考訳(メタデータ) (2023-11-29T03:10:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。