論文の概要: DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding
- arxiv url: http://arxiv.org/abs/2511.11313v2
- Date: Mon, 17 Nov 2025 20:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-19 13:59:16.681465
- Title: DocSLM: A Small Vision-Language Model for Long Multimodal Document Understanding
- Title(参考訳): DocSLM: 長期マルチモーダル文書理解のための小さな視覚言語モデル
- Authors: Tanveer Hannan, Dimitrios Mallios, Parth Pathak, Faegheh Sardari, Thomas Seidl, Gedas Bertasius, Mohsen Fayyaz, Sunando Sengupta,
- Abstract要約: LVLM(Large Vision-Language Models)は、長い複雑な文書に対して強力なマルチモーダル推論能力を示す。
本稿では,制約されたリソース下での長期文書理解のために設計された,効率的なスモールビジョン言語モデルDocSLMを提案する。
- 参考スコア(独自算出の注目度): 26.823523249232533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs) have demonstrated strong multimodal reasoning capabilities on long and complex documents. However, their high memory footprint makes them impractical for deployment on resource-constrained edge devices. We present DocSLM, an efficient Small Vision-Language Model designed for long-document understanding under constrained memory resources. DocSLM incorporates a Hierarchical Multimodal Compressor that jointly encodes visual, textual, and layout information from each page into a fixed-length sequence, greatly reducing memory consumption while preserving both local and global semantics. To enable scalable processing over arbitrarily long inputs, we introduce a Streaming Abstention mechanism that operates on document segments sequentially and filters low-confidence responses using an entropy-based uncertainty calibrator. Across multiple long multimodal document benchmarks, DocSLM matches or surpasses state-of-the-art methods while using 82\% fewer visual tokens, 75\% fewer parameters, and 71\% lower latency, delivering reliable multimodal document understanding on lightweight edge devices. Code is available in the supplementary material.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、長い複雑な文書に対して強力なマルチモーダル推論能力を示す。
しかし、そのメモリフットプリントが高いため、リソース制約のあるエッジデバイスへのデプロイには実用的ではない。
本稿では,制約メモリリソース下での長期文書理解のために設計された,効率的なスモールビジョン言語モデルDocSLMを提案する。
DocSLMには階層型マルチモーダル圧縮装置が組み込まれており、各ページから視覚的、テキスト的、レイアウト的な情報を固定長のシーケンスに共同でエンコードし、局所的、グローバルなセマンティクスを保存しながらメモリ消費を大幅に削減する。
任意の長さの入力に対してスケーラブルな処理を実現するために,文書セグメントを逐次操作するStreaming Abstention機構を導入し,エントロピーベースの不確実性校正器を用いて低信頼応答をフィルタする。
複数の長いマルチモーダルドキュメントベンチマークにおいて、DocSLMは82.%のビジュアルトークン、75.%のパラメータ、71.%のレイテンシを使用し、軽量エッジデバイス上で信頼性の高いマルチモーダルドキュメント理解を提供する。
コードは補足資料で入手できる。
関連論文リスト
- Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。
このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。
データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文 参考訳(メタデータ) (2025-07-19T16:03:34Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - SV-RAG: LoRA-Contextualizing Adaptation of MLLMs for Long Document Understanding [103.69014172427026]
マルチモーダルな大言語モデル(MLLM)は、最近、テキストに富んだ画像理解において大きな進歩を見せている。
長文書理解を支援するため,任意のMLLMの地平線を拡大できる,**S**elf-**V*isual **R***A*ugmented **G**eneration (SV-RAG) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Multi-Page Document Visual Question Answering using Self-Attention Scoring Mechanism [12.289101189321181]
Document Visual Question Answering (Document VQA)は、文書理解と自然言語処理のコミュニティから大きな関心を集めている。
最先端の単一ページのDocument VQAメソッドは、素晴らしいパフォーマンスを示しているが、マルチページのシナリオでは、これらのメソッドは苦労している。
マルチページ文書VQAタスクのための新しい手法と効率的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-04-29T18:07:47Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。