論文の概要: Multi-domain Multi-modal Document Classification Benchmark with a Multi-level Taxonomy
- arxiv url: http://arxiv.org/abs/2605.10550v2
- Date: Thu, 14 May 2026 12:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.38239
- Title: Multi-domain Multi-modal Document Classification Benchmark with a Multi-level Taxonomy
- Title(参考訳): 多段階分類を用いたマルチドメインマルチモーダル文書分類ベンチマーク
- Authors: Denghao Ma, Qing Liu, Zulong Chen, Chuanfei Xu, Jia Xu, Zhibo Yang, Wei Shao, Zhao Li,
- Abstract要約: マルチレベル・マルチドメイン・マルチモーダル文書分類ベンチマーク(MMM-Bench)を構築した。
MMM-Benchは、(1)ビジネス文書の真正な組織論理を捉える5つのレベルにまたがる深い階層的な分類、(2)Alibabaの12の商業ドメインから慎重にキュレートされた実世界の5,990のマルチモーダル文書を含む。
- 参考スコア(独自算出の注目度): 14.888842472004262
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document classification forms the backbone of modern enterprise content management, yet existing benchmarks remain trapped in oversimplified paradigms -- single domain settings with flat label structures -- that bear little resemblance to the hierarchical, multi-modal, and cross-domain nature of real-world business documents. This gap not only misrepresents practical complexity but also stifles progress toward industrially viable document intelligence. To bridge this gap, we construct the first Multi-level, Multi-domain, Multi-modal document classification Benchmark (MMM-Bench). MMM-Bench includes (1) a deeply hierarchical taxonomy spanning five levels that capture the authentic organizational logic of business documentation; and (2) 5,990 real-world multi-modal documents meticulously curated from 12 commercial domains in Alibaba. Each document is manually annotated with a complete hierarchical path by domain experts. We establish comprehensive baselines on MMM-Bench, which consists of open-weight models and API-based models. Through systematic experiments, we identify four fundamental challenges within MMM-Bench and propose corresponding insights. To provide a solid foundation for advancing research in multi-level, multi-domain document classification, we release all of the data and the evaluation toolkit of MMM-Bench at https://github.com/MMMDC-Bench/MMMDC-Bench.
- Abstract(参考訳): ドキュメント分類は、現代のエンタープライズコンテンツ管理のバックボーンを形成するが、既存のベンチマークは、現実のビジネス文書の階層的、マルチモーダル、クロスドメイン的な性質にはほとんど似ていない、単純化されたパラダイム – フラットなラベル構造を持つ単一のドメイン設定 – に閉じ込められている。
このギャップは、実用上の複雑さだけでなく、産業的に実行可能なドキュメントインテリジェンスへの進歩を阻害する。
このギャップを埋めるため,最初のマルチレベル・マルチドメイン・マルチモーダル文書分類ベンチマーク(MMM-Bench)を構築した。
MMM-Benchは、(1)ビジネス文書の真正な組織論理を捉える5つのレベルにまたがる深い階層的な分類、(2)Alibabaの12の商業ドメインから慎重にキュレートされた実世界の5,990のマルチモーダル文書を含む。
各文書は、ドメインの専門家によって完全な階層的なパスで手動で注釈付けされる。
オープンウェイトモデルとAPIベースモデルからなるMMM-Benchの包括的ベースラインを確立する。
系統的な実験を通じて,MMM-Bench内の4つの基本的な課題を特定し,それに対応する知見を提案する。
マルチレベル・マルチドメイン文書分類の研究を進めるための確かな基盤を提供するため, https://github.com/MMMDC-Bench/MMMDC-BenchでMMM-Benchのすべてのデータと評価ツールキットをリリースする。
関連論文リスト
- UNIKIE-BENCH: Benchmarking Large Multimodal Models for Key Information Extraction in Visual Documents [65.14244917622881]
近年の大規模マルチモーダルモデルでは,文書画像から直接,エンドツーエンドのKIEを実行する可能性が高まっている。
我々は,LMMのKIE能力を厳格に評価するベンチマークであるUNIKIE-BENCHを紹介する。
15の最先端のLMMの実験では、多様なスキーマ定義、ロングテールキーフィールド、複雑なレイアウトの下での大幅な性能低下が示されている。
論文 参考訳(メタデータ) (2026-02-03T12:04:56Z) - Doc-Researcher: A Unified System for Multimodal Document Parsing and Deep Research [31.973886754355547]
Doc-Researcherは、テキストのみ、ビジョンのみ、ハイブリッドパラダイム間のギャップを埋める統一システムである。
マルチモーダル,マルチホップ,マルチドキュメント,マルチターンディープリサーチの最初のベンチマークであるM4DocBenchを紹介する。
Doc-Researcherの精度は50.6%で、最先端のベースラインよりも3.4倍高い。
論文 参考訳(メタデータ) (2025-10-24T16:07:54Z) - Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - MMESGBench: Pioneering Multimodal Understanding and Complex Reasoning Benchmark for ESG Tasks [56.350173737493215]
環境・社会・ガバナンス(ESG)報告は、持続可能性の実践の評価、規制コンプライアンスの確保、財務透明性の促進に不可欠である。
MMESGBenchは、マルチモーダル理解と複雑な推論を、構造的に多種多様なマルチソースESG文書間で評価するための、最初のベンチマークデータセットである。
MMESGBenchは、45のESG文書から得られた933の検証済みQAペアで構成され、7つの異なるドキュメントタイプと3つの主要なESGソースカテゴリにまたがる。
論文 参考訳(メタデータ) (2025-07-25T03:58:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。