論文の概要: Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval
- arxiv url: http://arxiv.org/abs/2602.19961v1
- Date: Mon, 23 Feb 2026 15:27:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.880581
- Title: Unlocking Multimodal Document Intelligence: From Current Triumphs to Future Frontiers of Visual Document Retrieval
- Title(参考訳): マルチモーダルドキュメンテーションインテリジェンスを解き放つ:ビジュアルドキュメンテーション検索の新たなフロンティアへ
- Authors: Yibo Yan, Jiahao Huo, Guanbo Feng, Mingdong Ou, Yi Cao, Xin Zou, Shuliang Liu, Yuanhuiyi Lyu, Yu Huang, Jungang Li, Kening Zheng, Xu Zheng, Philip S. Yu, James Kwok, Xuming Hu,
- Abstract要約: Visual Document Retrieval (VDR)は、構造化されていない視覚的リッチデータと正確な情報取得のギャップを埋める上で、重要なフロンティアとして登場した。
本稿では,VDRランドスケープ,特にMultimodal Large Language Model (MLLM) 時代のレンズを通して,VDRランドスケープを包括的に調査する。
- 参考スコア(独自算出の注目度): 67.73095846666583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid proliferation of multimodal information, Visual Document Retrieval (VDR) has emerged as a critical frontier in bridging the gap between unstructured visually rich data and precise information acquisition. Unlike traditional natural image retrieval, visual documents exhibit unique characteristics defined by dense textual content, intricate layouts, and fine-grained semantic dependencies. This paper presents the first comprehensive survey of the VDR landscape, specifically through the lens of the Multimodal Large Language Model (MLLM) era. We begin by examining the benchmark landscape, and subsequently dive into the methodological evolution, categorizing approaches into three primary aspects: multimodal embedding models, multimodal reranker models, and the integration of Retrieval-Augmented Generation (RAG) and Agentic systems for complex document intelligence. Finally, we identify persistent challenges and outline promising future directions, aiming to provide a clear roadmap for future multimodal document intelligence.
- Abstract(参考訳): マルチモーダル情報の急速な普及に伴い、VDR(Visual Document Retrieval)は、構造化されていない視覚的リッチなデータと正確な情報取得のギャップを埋める重要なフロンティアとして登場した。
従来の自然画像検索とは異なり、ビジュアル文書は、濃密なテキストコンテンツ、複雑なレイアウト、きめ細かいセマンティック依存関係によって定義されたユニークな特徴を示す。
本稿では,VDRランドスケープ,特にMultimodal Large Language Model (MLLM) 時代のレンズを通して,VDRランドスケープを包括的に調査する。
まず,まずベンチマークの状況を調べ,その後方法論的進化を考察し,マルチモーダル埋め込みモデル,マルチモーダルリランカモデル,複雑な文書インテリジェンスのためのRetrieval-Augmented Generation(RAG)とエージェントシステムの統合という,3つの主要な側面に分類する。
最後に、永続的な課題を特定し、将来有望な方向性を概説し、将来のマルチモーダル文書インテリジェンスのための明確なロードマップを提供することを目的とする。
関連論文リスト
- The Paradigm Shift: A Comprehensive Survey on Large Vision Language Models for Multimodal Fake News Detection [35.503099074709006]
近年、大型視覚モデル(LVLM)の急速な進化は、マルチモーダルフェイクニュース(MFND)のパラダイムシフトを引き起こしている。
本稿では、歴史的視点、基礎モデルパラダイムへのマッピング、解釈可能性、時間的推論、ドメインの一般化など、残る技術的課題について論じる。
このパラダイムシフトの次の段階を導くための今後の研究方針について概説する。
論文 参考訳(メタデータ) (2026-01-16T02:40:16Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - SEED-Story: Multimodal Long Story Generation with Large Language Model [66.37077224696242]
SEED-Storyは、MLLM(Multimodal Large Language Model)を利用して拡張マルチモーダルストーリーを生成する新しい手法である。
マルチモーダルアテンションシンク機構を提案し,最大25個のストーリー(トレーニング用10個)を高い効率で自動回帰的に生成する。
本稿では,大規模かつ高解像度なStoryStreamというデータセットを提案する。
論文 参考訳(メタデータ) (2024-07-11T17:21:03Z) - Recent Advances in Hate Speech Moderation: Multimodality and the Role of Large Models [52.24001776263608]
この包括的調査は、HSモデレーションの最近の歩みを掘り下げている。
大型言語モデル(LLM)と大規模マルチモーダルモデル(LMM)の急成長する役割を強調した。
研究における既存のギャップを、特に表現不足言語や文化の文脈で特定する。
論文 参考訳(メタデータ) (2024-01-30T03:51:44Z) - A Survey on Image-text Multimodal Models [2.2048972157452615]
本稿ではまず,画像テキストマルチモーダルモデルの技術的進化について概説する。
次に、一般的な画像テキストマルチモーダル技術の開発が、バイオメディカル分野におけるマルチモーダル技術の進展を促進する方法について説明する。
最後に,一般的な画像テキスト・マルチモーダルモデルのアーキテクチャ,コンポーネント,データについて概説し,バイオメディカル分野における画像テキスト・マルチモーダルモデルの適用と改善について紹介する。
論文 参考訳(メタデータ) (2023-09-23T15:21:15Z) - Information Screening whilst Exploiting! Multimodal Relation Extraction
with Feature Denoising and Multimodal Topic Modeling [96.75821232222201]
既存のマルチモーダル関係抽出(MRE)研究は、内部情報過剰利用と外部情報過多という2つの共存課題に直面している。
内部情報スクリーニングと外部情報活用を同時に実現する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:57Z) - Topic-Guided Abstractive Multi-Document Summarization [21.856615677793243]
多文書要約(MDS)の重要なポイントは、様々な文書間の関係を学習することである。
異種グラフとして複数の文書を表現できる新しい抽象MDSモデルを提案する。
我々は、クロスドキュメントセマンティックユニットとして機能する潜在トピックを共同で発見するために、ニューラルトピックモデルを採用している。
論文 参考訳(メタデータ) (2021-10-21T15:32:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。