論文の概要: ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge
- arxiv url: http://arxiv.org/abs/2602.09839v1
- Date: Tue, 10 Feb 2026 14:45:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.600451
- Title: ARK: A Dual-Axis Multimodal Retrieval Benchmark along Reasoning and Knowledge
- Title(参考訳): ARK: 推論と知識による2軸マルチモーダル検索ベンチマーク
- Authors: Yijie Lin, Guofeng Ding, Haochen Zhou, Haobin Li, Mouxing Yang, Xi Peng,
- Abstract要約: 本稿では,2つの相補的な視点からマルチモーダル検索を解析するためのベンチマークARKを紹介する。
ARKは、不均質なクエリとマルチモーダルなクエリと候補で検索を評価し、16の異種視覚データ型をカバーする。
我々は,知識集約型検索と推論集約型検索の明確なギャップを観察し,視覚的・空間的推論を永続的ボトルネックとして生み出す。
- 参考スコア(独自算出の注目度): 19.93676370851117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing multimodal retrieval benchmarks largely emphasize semantic matching on daily-life images and offer limited diagnostics of professional knowledge and complex reasoning. To address this gap, we introduce ARK, a benchmark designed to analyze multimodal retrieval from two complementary perspectives: (i) knowledge domains (five domains with 17 subtypes), which characterize the content and expertise retrieval relies on, and (ii) reasoning skills (six categories), which characterize the type of inference over multimodal evidence required to identify the correct candidate. Specifically, ARK evaluates retrieval with both unimodal and multimodal queries and candidates, covering 16 heterogeneous visual data types. To avoid shortcut matching during evaluation, most queries are paired with targeted hard negatives that require multi-step reasoning. We evaluate 23 representative text-based and multimodal retrievers on ARK and observe a pronounced gap between knowledge-intensive and reasoning-intensive retrieval, with fine-grained visual and spatial reasoning emerging as persistent bottlenecks. We further show that simple enhancements such as re-ranking and rewriting yield consistent improvements, but substantial headroom remains.
- Abstract(参考訳): 既存のマルチモーダル検索ベンチマークは、日常画像のセマンティックマッチングを重視し、専門知識の限られた診断と複雑な推論を提供する。
このギャップに対処するために,2つの相補的な視点からマルチモーダル検索を解析するためのベンチマークARKを導入する。
一 内容及び専門知識の検索を特徴付ける知識領域(17のサブタイプを有する5つのドメイン)が依拠する。
二 正しい候補を特定するのに必要なマルチモーダルな証拠に対する推論のタイプを特徴付ける推論スキル(6カテゴリー)。
具体的には、ARKは、不均質なクエリとマルチモーダルなクエリと候補の両方で検索を評価し、16の異種視覚データ型をカバーしている。
評価中のショートカットマッチングを避けるため、ほとんどのクエリは、マルチステップ推論を必要とするターゲットのハードネガティブとペアリングされる。
我々は、ARK上の23のテキストベースおよびマルチモーダル検索装置を評価し、知識集約型検索と推論集約型検索の明確なギャップを観察し、視覚的および空間的推論を永続的ボトルネックとして生み出す。
さらに、リグレードやリライトのような単純な拡張が一貫した改善をもたらすことを示していますが、実質的なヘッドルームは残っています。
関連論文リスト
- V-Retrver: Evidence-Driven Agentic Reasoning for Universal Multimodal Retrieval [32.5242219186118]
本稿では,視覚検査に基づくエージェント推論プロセスとしてマルチモーダル検索を再構成するエビデンス駆動検索フレームワークであるV-Retrverを提案する。
V-Retrverは、MLLMが外部視覚ツールを介して推論中に視覚的エビデンスを選択的に取得し、仮説生成と対象の視覚的検証を交互に行うマルチモーダル・インターリーブド推論プロセスを実行することを可能にする。
論文 参考訳(メタデータ) (2026-02-05T18:59:21Z) - MRMR: A Realistic and Expert-Level Multidisciplinary Benchmark for Reasoning-Intensive Multimodal Retrieval [87.24221266746686]
MRMRは,集中的推論を必要とする,最初のエキスパートレベルのマルチディシプリナマルチモーダル検索ベンチマークである。
さまざまな専門分野にわたる検索システムに挑戦し、ドメイン間のきめ細かいモデル比較を可能にする。
クエリは推論集約的であり、画像は顕微鏡スライドの診断などの深い解釈を必要とする。
論文 参考訳(メタデータ) (2025-10-10T16:14:56Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - METER: Multi-modal Evidence-based Thinking and Explainable Reasoning -- Algorithm and Benchmark [48.78602579128459]
本稿では,画像,ビデオ,音声,映像コンテンツにまたがる偽造検出のための統合ベンチマークMETERを紹介する。
我々のデータセットは4つのトラックから構成されており、それぞれのトラックは実際のvsフェイク分類だけでなく、エビデンスチェーンに基づく説明も必要である。
論文 参考訳(メタデータ) (2025-07-22T03:42:51Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - OMGM: Orchestrate Multiple Granularities and Modalities for Efficient Multimodal Retrieval [31.69320295943039]
知識に基づく視覚質問応答(KB-VQA)に対処するための視覚言語検索拡張生成(RAG)が有効なアプローチとなっている
本稿では,複数の粒度とモダリティを調和させて有効性を向上する,粗大で微細なマルチステップ検索を特徴とするマルチモーダルRAGシステムを提案する。
論文 参考訳(メタデータ) (2025-05-10T14:24:41Z) - Envisioning Beyond the Pixels: Benchmarking Reasoning-Informed Visual Editing [84.16442052968615]
RISEBenchはReasoning-Informed ViSual Editing (RISE)の最初のベンチマークである。
RISEBenchは、時間、因果、空間、論理的推論の4つの主要な推論カテゴリに焦点を当てている。
オープンソースモデルとプロプライエタリモデルの両方を含む,9つの目立った視覚編集モデルを評価する実験を行った。
論文 参考訳(メタデータ) (2025-04-03T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。