論文の概要: A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
- arxiv url: http://arxiv.org/abs/2604.19689v1
- Date: Tue, 21 Apr 2026 17:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.895967
- Title: A-MAR: Agent-based Multimodal Art Retrieval for Fine-Grained Artwork Understanding
- Title(参考訳): A-MAR:細粒度アートワーク理解のためのエージェントベースマルチモーダルアート検索
- Authors: Shuai Wang, Hongyi Zhu, Jia-Hong Huang, Yixian Shen, Chengxi Zeng, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring,
- Abstract要約: A-MARはエージェントベースのマルチモーダルアート検索フレームワークで、構造化された推論計画の検索を明示的に条件付けする。
A-MARは、最終的な説明品質において、静的で計画外の検索と強力なMLLMベースラインを一貫して上回る。
これらの結果は,知識集約型マルチモーダル理解における推論条件付き検索の重要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 22.108285993445552
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding artworks requires multi-step reasoning over visual content and cultural, historical, and stylistic context. While recent multimodal large language models show promise in artwork explanation, they rely on implicit reasoning and internalized knowl- edge, limiting interpretability and explicit evidence grounding. We propose A-MAR, an Agent-based Multimodal Art Retrieval framework that explicitly conditions retrieval on structured reasoning plans. Given an artwork and a user query, A-MAR first decomposes the task into a structured reasoning plan that specifies the goals and evidence requirements for each step. Retrieval is then conditionedon this plan, enabling targeted evidence selection and supporting step-wise, grounded explanations. To evaluate agent-based multi- modal reasoning within the art domain, we introduce ArtCoT-QA. This diagnostic benchmark features multi-step reasoning chains for diverse art-related queries, enabling a granular analysis that extends beyond simple final answer accuracy. Experiments on SemArt and Artpedia show that A-MAR consistently outperforms static, non planned retrieval and strong MLLM baselines in final explanation quality, while evaluations on ArtCoT-QA further demonstrate its advantages in evidence grounding and multi-step reasoning ability. These results highlight the importance of reasoning-conditioned retrieval for knowledge-intensive multimodal understanding and position A-MAR as a step toward interpretable, goal-driven AI systems, with particular relevance to cultural industries. The code and data are available at: https://github.com/ShuaiWang97/A-MAR.
- Abstract(参考訳): アートワークを理解するには、視覚的内容や文化的、歴史的、様式的な文脈に対する多段階の推論が必要である。
最近の多モーダルな大言語モデルは、アートワークの説明において有望であることを示しているが、それらは暗黙の推論と内部化されたノウルエッジに依存しており、解釈可能性や明確な証拠を根拠にしている。
本稿では,A-MARというエージェントベースのマルチモーダルアート検索フレームワークを提案する。
アートワークとユーザクエリが与えられた後、A-MARはまず、各ステップの目標とエビデンス要件を指定する構造化された推論計画にタスクを分解する。
Retrievalはこの計画を条件付きで実施し、目標とする証拠の選択と、段階的に基礎化された説明の支持を可能にする。
エージェントベースのマルチモーダル推論をアート領域内で評価するために,ArtCoT-QAを導入する。
この診断ベンチマークは、さまざまなアート関連クエリのための多段階推論チェーンを備えており、単純な最終回答精度を超えて詳細な分析を可能にする。
SemArtとArtpediaの実験は、A-MARが静的で非計画的な検索と強力なMLLMベースラインを最終説明品質で一貫して上回ることを示した。
これらの結果は、知識集約型マルチモーダル理解のための推論条件付き検索の重要性を強調し、A-MARを文化産業に特に関連性のある、解釈可能な目標駆動型AIシステムへのステップとして位置づけた。
コードとデータは、https://github.com/ShuaiWang97/A-MARで入手できる。
関連論文リスト
- VQArt-Bench: A semantically rich VQA Benchmark for Art and Cultural Heritage [0.0]
VQArt-Benchは、文化遺産ドメインの大規模なビジュアル質問回答ベンチマークである。
特殊なエージェントが協力して、ニュアンス、検証、言語学的に多様な質問を生成する、新しいマルチエージェントパイプラインを使用して構築されている。
このベンチマークによる14の最先端MLLMの評価は、現在のモデルに重大な制限があることを示唆している。
論文 参考訳(メタデータ) (2025-10-14T17:29:52Z) - MARIC: Multi-Agent Reasoning for Image Classification [6.303112232080335]
画像分類のためのマルチエージェント型推論(MARIC)を提案する。
MARICは、画像分類を協調推論プロセスとして再構成するマルチエージェントフレームワークである。
4つの多様な画像分類ベンチマークデータセットの実験は、MARICがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2025-09-18T11:27:00Z) - Explain Before You Answer: A Survey on Compositional Visual Reasoning [74.27548620675748]
構成的視覚推論は、マルチモーダルAIにおける重要な研究フロンティアとして登場した。
本調査は,トップ会場(CVPR,ICCV,NeurIPS,ICML,ACLなど)から260以上の論文を体系的にレビューする。
次に60以上のベンチマークとそれに対応するメトリクスを、基底精度、連鎖忠実性、高分解能知覚などの次元に沿って探索する。
論文 参考訳(メタデータ) (2025-08-24T11:01:51Z) - MMAR: A Challenging Benchmark for Deep Reasoning in Speech, Audio, Music, and Their Mix [50.71803775663387]
MMARは、精密にキュレートされた1000個のオーディオクエスト・アンサー・トリプルから構成される。
MMARは既存のベンチマークを幅広い実世界のオーディオシナリオに拡張する。
我々は,Large Audio-Language Models (LALM)を含む,幅広いモデルの集合を用いてMMARを評価する。
論文 参考訳(メタデータ) (2025-05-19T12:18:42Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - A Novel Energy based Model Mechanism for Multi-modal Aspect-Based
Sentiment Analysis [85.77557381023617]
マルチモーダル感情分析のための新しいフレームワークDQPSAを提案する。
PDQモジュールは、プロンプトをビジュアルクエリと言語クエリの両方として使用し、プロンプト対応の視覚情報を抽出する。
EPEモジュールはエネルギーベースモデルの観点から解析対象の境界ペアリングをモデル化する。
論文 参考訳(メタデータ) (2023-12-13T12:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。