論文の概要: Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2602.19961v1
- Date: Mon, 23 Feb 2026 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.880581
- Title: Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval
- Title(参考訳): マルチモーダルドキュメンテーションインテリジェンスを解き放つ:ビジュアルドキュメンテーション検索の新たなフロンティアへ
- Authors: Yibo Yan, Jiahao Huo, Guanbo Feng, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Yuanhuiyi Lyu, Yu Huang, Jungang Li, Kening Zheng, Xu Zheng, Philip S. Yu, James Kwok, Xuming Hu,
- Abstract要約: Visual Document Retrieval (VDR)は、構造化されていない視覚的リッチデータと正確な情報取得のギャップを埋める上で、重要なフロンティアとして登場した。
本稿では,VDRランドスケープ,特にMultimodal Large Language Model (MLLM) 時代のレンズを通して,VDRランドスケープを包括的に調査する。
- 参考スコア(独自算出の注目度): 67.73095846666583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid proliferation of multimodal information, Visual Document Retrieval (VDR) has emerged as a critical frontier in bridging the gap between unstructured visually rich data and precise information acquisition. Unlike traditional natural image retrieval, visual documents exhibit unique characteristics defined by dense textual content, intricate layouts, and fine-grained semantic dependencies. This paper presents the first comprehensive survey of the VDR landscape, specifically through the lens of the Multimodal Large Language Model (MLLM) era. We begin by examining the benchmark landscape, and subsequently dive into the methodological evolution, categorizing approaches into three primary aspects: multimodal embedding models, multimodal reranker models, and the integration of Retrieval-Augmented Generation (RAG) and Agentic systems for complex document intelligence. Finally, we identify persistent challenges and outline promising future directions, aiming to provide a clear roadmap for future multimodal document intelligence.
- Abstract(参考訳): マルチモーダル情報の急速な普及に伴い、VDR(Visual Document Retrieval)は、構造化されていない視覚的リッチなデータと正確な情報取得のギャップを埋める重要なフロンティアとして登場した。
従来の自然画像検索とは異なり、ビジュアル文書は、濃密なテキストコンテンツ、複雑なレイアウト、きめ細かいセマンティック依存関係によって定義されたユニークな特徴を示す。
本稿では,VDRランドスケープ,特にMultimodal Large Language Model (MLLM) 時代のレンズを通して,VDRランドスケープを包括的に調査する。
まず,まずベンチマークの状況を調べ,その後方法論的進化を考察し,マルチモーダル埋め込みモデル,マルチモーダルリランカモデル,複雑な文書インテリジェンスのためのRetrieval-Augmented Generation(RAG)とエージェントシステムの統合という,3つの主要な側面に分類する。
最後に、永続的な課題を特定し、将来有望な方向性を概説し、将来のマルチモーダル文書インテリジェンスのための明確なロードマップを提供することを目的とする。
関連論文リスト
- The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection [35.503099074709006]
近年、大型視覚モデル(LVLM)の急速な進化は、マルチモーダルフェイクニュース(MFND)のパラダイムシフトを引き起こしている。
本稿では、歴史的視点、基礎モデルパラダイムへのマッピング、解釈可能性、時間的推論、ドメインの一般化など、残る技術的課題について論じる。
このパラダイムシフトの次の段階を導くための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2026-01-16T02:40:16Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - A Survey on Image-text Multimodal Models [2.2048972157452615]
本稿ではまず,画像テキストマルチモーダルモデルの技術的進化について概説する。
次に、一般的な画像テキストマルチモーダル技術の開発が、バイオメディカル分野におけるマルチモーダル技術の進展を促進する方法について説明する。
最後に,一般的な画像テキスト・マルチモーダルモデルのアーキテクチャ,コンポーネント,データについて概説し,バイオメディカル分野における画像テキスト・マルチモーダルモデルの適用と改善について紹介する。
論文 参考訳(メタデータ) (2023-09-23T15:21:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。