論文の概要: Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing
- arxiv url: http://arxiv.org/abs/2509.04469v1
- Date: Fri, 29 Aug 2025 09:09:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-08 14:27:25.304807
- Title: Multi-Modal Vision vs. Text-Based Parsing: Benchmarking LLM Strategies for Invoice Processing
- Title(参考訳): マルチモーダルビジョンとテキストベースの構文解析:請求処理のためのLCM戦略のベンチマーク
- Authors: David Berghaus, Armin Berger, Lars Hillebrand, Kostadin Cvejoski, Rafet Sifa,
- Abstract要約: マルチモーダル機能を用いた直接画像処理と,文書をマークダウンに変換する構造化解析手法の2つの処理戦略を比較した。
その結果、ネイティブ画像処理は概して構造化されたアプローチよりも優れており、性能はモデルタイプや文書の特徴によって異なることがわかった。
- 参考スコア(独自算出の注目度): 4.955760233741874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper benchmarks eight multi-modal large language models from three families (GPT-5, Gemini 2.5, and open-source Gemma 3) on three diverse openly available invoice document datasets using zero-shot prompting. We compare two processing strategies: direct image processing using multi-modal capabilities and a structured parsing approach converting documents to markdown first. Results show native image processing generally outperforms structured approaches, with performance varying across model types and document characteristics. This benchmark provides insights for selecting appropriate models and processing strategies for automated document systems. Our code is available online.
- Abstract(参考訳): 本稿では,GPT-5,Gemini 2.5,およびオープンソースのGemma 3) を,ゼロショットプロンプトを用いた3種類のオープンな請求書文書データセット上でベンチマークする。
マルチモーダル機能を用いた直接画像処理と,文書をマークダウンに変換する構造化解析手法の2つの処理戦略を比較した。
その結果、ネイティブ画像処理は概して構造化されたアプローチよりも優れており、性能はモデルタイプや文書の特徴によって異なることがわかった。
このベンチマークは、自動化された文書システムのための適切なモデルと処理戦略を選択するための洞察を提供する。
私たちのコードはオンラインで利用可能です。
関連論文リスト
- VisR-Bench: An Empirical Study on Visual Retrieval-Augmented Generation for Multilingual Long Document Understanding [49.07705729597171]
VisR-Benchは、長い文書における質問駆動型マルチモーダル検索のベンチマークである。
ベンチマークは、1.2Kドキュメントで35K以上の高品質なQAペアで構成されています。
テキストベースの手法,マルチモーダルエンコーダ,MLLMなど,さまざまな検索モデルを評価する。
論文 参考訳(メタデータ) (2025-08-10T21:44:43Z) - jina-embeddings-v4: Universal Embeddings for Multimodal Multilingual Retrieval [5.587329786636647]
テキストと画像表現を統一するマルチモーダル埋め込みモデルであるjina-embeddings-v4を導入する。
このモデルにはタスク固有のローランド適応(LoRA)アダプタが組み込まれ、さまざまな検索シナリオのパフォーマンスを最適化する。
また、この機能の評価を容易にするために、視覚的にリッチな画像検索に特化した新しいベンチマークであるJina-VDRを導入する。
論文 参考訳(メタデータ) (2025-06-23T17:59:55Z) - Vision-Guided Chunking Is All You Need: Enhancing RAG with Multimodal Document Understanding [0.0]
Retrieval-Augmented Generation (RAG) システムは情報検索と質問応答に革命をもたらした。
従来のテキストベースのチャンキング手法は、複雑なドキュメント構造、マルチページテーブル、埋め込みフィギュア、ページ境界を越えたコンテキスト依存に苦労する。
本稿では,Large Multimodal Models(LMM)を利用してPDF文書をバッチで処理する,新しいマルチモーダル文書チャンキング手法を提案する。
論文 参考訳(メタデータ) (2025-06-19T05:11:43Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Text Change Detection in Multilingual Documents Using Image Comparison [0.9489490326481771]
多言語文書に適した画像比較モデルを用いてテキスト変化検出(TCD)を提案する。
本モデルでは,ソースとターゲット文書間の双方向な変更セグメンテーションマップを生成する。
我々は、我々のベンチマークデータセットと公開ベンチマークを用いて、Distorted Document ImagesとLRDE Document Binarizationデータセットを用いてアプローチを検証する。
論文 参考訳(メタデータ) (2024-12-05T13:04:10Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。