Fugu-MT 論文翻訳(概要): SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

論文の概要: SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion

arxiv url: http://arxiv.org/abs/2503.11576v1
Date: Fri, 14 Mar 2025 16:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-17 22:04:29.419942
Title: SmolDocling: An ultra-compact vision-language model for end-to-end multi-modal document conversion
Title（参考訳）: SmolDocling: エンドツーエンドのマルチモーダル文書変換のための超コンパクト視覚言語モデル
Authors: Ahmed Nassar, Andres Marafioti, Matteo Omenetti, Maksym Lysak, Nikolaos Livathinos, Christoph Auer, Lucas Morin, Rafael Teixeira de Lima, Yusik Kim, A. Said Gurbuz, Michele Dolfi, Miquel Farré, Peter W. J. Staar,
Abstract要約: 本稿では,エンドツーエンドの文書変換を目的とした超コンパクトな視覚言語モデルであるSmolDoclingを紹介する。我々のモデルは、新しいユニバーサルマークアップフォーマットであるDocTagsを生成することによって、ページ全体を包括的に処理する。 SmohDoclingは、コードリスト、テーブル、方程式、チャート、リストなどのドキュメント機能を正しく再現する上で、堅牢なパフォーマンスを示している。
参考スコア（独自算出の注目度）: 9.198920557312865
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce SmolDocling, an ultra-compact vision-language model targeting end-to-end document conversion. Our model comprehensively processes entire pages by generating DocTags, a new universal markup format that captures all page elements in their full context with location. Unlike existing approaches that rely on large foundational models, or ensemble solutions that rely on handcrafted pipelines of multiple specialized models, SmolDocling offers an end-to-end conversion for accurately capturing content, structure and spatial location of document elements in a 256M parameters vision-language model. SmolDocling exhibits robust performance in correctly reproducing document features such as code listings, tables, equations, charts, lists, and more across a diverse range of document types including business documents, academic papers, technical reports, patents, and forms -- significantly extending beyond the commonly observed focus on scientific papers. Additionally, we contribute novel publicly sourced datasets for charts, tables, equations, and code recognition. Experimental results demonstrate that SmolDocling competes with other Vision Language Models that are up to 27 times larger in size, while reducing computational requirements substantially. The model is currently available, datasets will be publicly available soon.
Abstract（参考訳）: 本稿では,エンドツーエンドの文書変換を目的とした超コンパクトな視覚言語モデルであるSmolDoclingを紹介する。我々のモデルはDocTagsを生成することでページ全体を包括的に処理する。大規模な基礎モデルに依存する既存のアプローチや、複数の特殊なモデルの手作りパイプラインに依存するアンサンブルソリューションとは異なり、SmolDoclingは256Mパラメータの視覚言語モデルにおいて、文書要素のコンテンツ、構造、空間的位置を正確にキャプチャするエンドツーエンドの変換を提供する。 SmolDoclingは、ビジネスドキュメント、学術論文、技術レポート、特許、フォームなど、さまざまな種類のドキュメントタイプにわたって、コードリスト、テーブル、方程式、チャート、リストなど、正しく再現されたドキュメント機能において、堅牢なパフォーマンスを示しています。さらに、我々は、グラフ、テーブル、方程式、およびコード認識のための、新しいオープンソースデータセットをコントリビュートする。実験の結果,SmolDoclingは最大27倍の大きさの他のビジョン言語モデルと競合し,計算要求を大幅に削減することがわかった。モデルは現在利用可能であり、データセットはまもなく公開される予定だ。

関連論文リスト

DocSpiral: A Platform for Integrated Assistive Document Annotation through Human-in-the-Spiral [11.336757553731639]
多くのダウンストリームタスクにおいて、ドメイン固有の画像ベースのドキュメントから構造化されたデータを取得することが不可欠である。多くの文書は機械可読テキストではなく画像として存在し、自動抽出システムの訓練には人間のアノテーションが必要である。初となるHuman-in-the-Spiral補助文書アノテーションプラットフォームDocSpiralについて述べる。
論文参考訳（メタデータ） (2025-05-06T06:02:42Z)
Relation-Rich Visual Document Generator for Visual Information Extraction [12.4941229258054]
本稿では2段階のアプローチでこれらの制限に対処するリレーショナルrIchビジュアルドキュメンテーション・ジェネレータ(RIDGE)を提案する。提案手法は,様々なVIEベンチマークにおける文書理解モデルの性能を大幅に向上させる。
論文参考訳（メタデータ） (2025-04-14T19:19:26Z)
M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。 M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文参考訳（メタデータ） (2025-03-27T07:28:32Z)
Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。 Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文参考訳（メタデータ） (2025-02-14T05:36:32Z)
Document Parsing Unveiled: Techniques, Challenges, and Prospects for Structured Information Extraction [23.47150047875133]
文書解析は、構造化されていない文書と半構造化された文書を機械可読データに変換するのに不可欠である。文書解析は知識ベースの構築とトレーニングデータ生成において不可欠である。本稿では,モジュール型文書解析システムと複雑なレイアウト処理における視覚言語モデルが直面する課題について論じる。
論文参考訳（メタデータ） (2024-10-28T16:11:35Z)
PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文参考訳（メタデータ） (2024-10-08T12:17:42Z)
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (2024-09-05T11:09:00Z)
DocLLM: A layout-aware generative language model for multimodal document understanding [12.093889265216205]
本稿では,従来の大規模言語モデル(LLM)の軽量拡張であるDocLLMについて述べる。本モデルは,空間配置構造を組み込むための境界ボックス情報にのみ焦点をあてる。我々のソリューションは、すべてのタスクにまたがる16のデータセットのうち14のデータセットでSotA LLMよりも優れており、これまで見つからなかった5つのデータセットのうち4のデータセットで十分に一般化されていることを実証しています。
論文参考訳（メタデータ） (2023-12-31T22:37:52Z)
A Multi-Modal Multilingual Benchmark for Document Image Classification [21.7518357653137]
新たに作成した2つの多言語データセットWIKI-DOCと MultiEUR-DOCLEXを紹介する。我々は、文書画像分類における未検証設定において、視覚的に豊富な文書理解や文書AIモデルについて研究する。実験結果から,多言語間移動における多言語文書AIモデルの限界が示された。
論文参考訳（メタデータ） (2023-10-25T04:35:06Z)
Enhancing Visually-Rich Document Understanding via Layout Structure Modeling [91.07963806829237]
レイアウトの知識をモデルに注入する新しい文書理解モデルであるGraphLMを提案する。我々は、FUNSD、XFUND、CORDなど様々なベンチマークでモデルを評価し、最先端の結果を得た。
論文参考訳（メタデータ） (2023-08-15T13:53:52Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文参考訳（メタデータ） (2023-06-15T08:21:15Z)
XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。 XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-10-06T12:07:18Z)
DocLayNet: A Large Human-Annotated Dataset for Document-Layout Analysis [2.9923891863939938]
文書レイアウト解析は高品質なPDF文書変換の鍵となる要件である。ディープラーニングモデルは、レイアウトの検出とセグメンテーションに非常に効果的であることが証明されている。 textitDocLayNetは、新たに公開され、ドキュメント-アノテーションデータセットである。
論文参考訳（メタデータ） (2022-06-02T14:25:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。