Fugu-MT 論文翻訳(概要): Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis

論文の概要: Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis

arxiv url: http://arxiv.org/abs/2606.02162v1
Date: Mon, 01 Jun 2026 12:24:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-02 21:34:31.99331
Title: Multimodal Approaches for Visually-Rich Document Type Classification: A Comparative Analysis
Title（参考訳）: ビジュアルリッチ文書型分類のためのマルチモーダルアプローチ:比較分析
Authors: Catyana Heyne, Jürgen Frikel, Filippo Riccio,
Abstract要約: マルチモーダルトランスフォーマーは、視覚的にリッチでレイアウト集約的なドキュメントに対するLCMベースのアプローチより優れている。画像情報は信頼性の高い分類に最も強く寄与する一方、OCRから派生したテキストは有用なが二次的なサポートを提供する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Document type classification in visually rich documents remains challenging, as relevant information is distributed across textual, visual, and layout modalities. To capture this complexity, current approaches rely on diverse multimodal modeling strategies, resulting in heterogeneous architectures that complicate systematic comparison. This variability is also reflected in existing comparative studies, which often rely on heterogeneous evaluation setups, further complicating systematic comparison and making it difficult to assess progress. To address these limitations, this work provides a structured analysis of multimodal design strategies across transformer- and LLM-based architectures, combined with a controlled empirical comparison within a unified experimental framework. Specifically, four representative models (LayoutLMv3, Donut, Qwen3-VL-32B-Instruct, and Qwen3-32B) are evaluated on the RVL-CDIP benchmark to systematically analyze the contributions of text, image, and layout information for document type classification, with a particular focus on contrasting OCR-dependent and OCR-free approaches. The results show that specialized multimodal Transformers outperform LLM-based approaches on visually rich and layout-intensive documents. Image information contributes most strongly to reliable classification, while OCR-derived text provides useful but secondary support. These findings highlight that multimodal processing remains essential for documents with pronounced layout structure. Overall, the study provides a systematic basis for comparing multimodal architectures and offers practical guidance for selecting effective feature combinations and model designs for document type classification.
Abstract（参考訳）: 関連情報がテキスト、ビジュアル、レイアウトのモダリティに分散されているため、視覚的にリッチな文書における文書型分類は依然として困難である。この複雑さを捉えるために、現在のアプローチは多様なマルチモーダルモデリング戦略に依存しており、結果として体系的な比較を複雑にする異種アーキテクチャが生まれる。この変数は既存の比較研究にも反映されており、しばしば異種評価の設定に依存し、体系的な比較をさらに複雑化し、進捗を評価するのが難しくなる。これらの制約に対処するため、この研究はトランスフォーマーおよびLLMアーキテクチャ間のマルチモーダル設計戦略を構造化分析し、統一された実験フレームワーク内での制御された経験的比較と組み合わせた。具体的には、4つの代表モデル(LayoutLMv3, Donut, Qwen3-VL-32B-Instruct, Qwen3-32B)をRVL-CDIPベンチマークで評価し、文書型分類のためのテキスト、画像、レイアウト情報のコントリビューションを体系的に分析する。その結果、多モードトランスフォーマーは、視覚的にリッチでレイアウト集約的な文書に対するLCMベースのアプローチよりも優れていた。画像情報は信頼性の高い分類に最も強く寄与する一方、OCRから派生したテキストは有用なが二次的なサポートを提供する。これらの結果から, レイアウト構造が明確である文書には, マルチモーダル処理が不可欠であることが示唆された。本研究は,マルチモーダルアーキテクチャを比較するための体系的基盤を提供し,文書型分類のための効果的な特徴組合せとモデル設計を選択するための実践的ガイダンスを提供する。

関連論文リスト

MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文参考訳（メタデータ） (2026-02-01T12:27:40Z)
MCERF: Advancing Multimodal LLM Evaluation of Engineering Documentation with Enhanced Retrieval [7.964714175107759]
エンジニアリングルールブックと技術標準は、密集したテキスト、テーブル、イラストのようなマルチモーダル情報を含んでいる。この研究は、大規模言語モデル推論とマルチモーダルレトリバーを結合するシステムである、マルチモーダルColPali Enhanced Retrieval and Reasoning Framework (RFMCE)を確立する。これは、視覚言語検索、モジュール推論、適応的ルーティングが、エンジニアリングユースケースにおけるスケーラブルなドキュメント理解を可能にする方法を示している。
論文参考訳（メタデータ） (2026-01-31T03:09:47Z)
Exploring a Unified Vision-Centric Contrastive Alternatives on Multi-Modal Web Documents [99.62178668680578]
本稿では,単一の視覚変換器を用いてテキスト,画像,それらの組み合わせをモデル化する統合フレームワークであるビジョン中心コントラスト学習(VC2L)を提案する。 VC2Lは完全にピクセル空間で動作し、テキスト、ビジュアル、または組み合わせのいずれでも、すべての入力を画像として描画する。ウェブ文書における複雑なクロスモーダル関係を捉えるため、VC2Lは連続するマルチモーダルセグメントを整列するスニペットレベルのコントラスト学習目標を採用している。
論文参考訳（メタデータ） (2025-10-21T14:59:29Z)
Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。 Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文参考訳（メタデータ） (2025-10-17T02:33:16Z)
UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。 UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文参考訳（メタデータ） (2025-10-04T04:30:13Z)
CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文参考訳（メタデータ） (2025-09-02T09:17:57Z)
MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。 MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。 MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文参考訳（メタデータ） (2025-07-25T03:58:07Z)
Comparative Analysis of AI Agent Architectures for Entity Relationship Classification [1.6887793771613606]
本研究では,3つの異なるAIエージェントアーキテクチャの比較分析を行い,関係分類を行う。エージェントアーキテクチャは,(1)反射的自己評価,(2)階層的タスク分解,(3)新しいマルチエージェント動的サンプル生成機構を含む。実験により,マルチエージェントの協調が標準のショットプロンプトより一貫して優れていることが実証された。
論文参考訳（メタデータ） (2025-06-03T04:19:47Z)
Parallel Hierarchical Transformer with Attention Alignment for Abstractive Multi-Document Summarization [4.035753155957699]
MDS (Abstractive Multi-Document Summarization) は、その長大かつリンクされたソースの表現とカバレッジに課題をもたらす。本研究は,MDSのアライメントを考慮した並列階層変換器(PHT)を開発した。
論文参考訳（メタデータ） (2022-08-16T17:02:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。