論文の概要: PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
- arxiv url: http://arxiv.org/abs/2510.14528v1
- Date: Thu, 16 Oct 2025 10:18:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.813325
- Title: PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model
- Title(参考訳): PaddleOCR-VL:0.9B超コンパクトビジョン言語モデルによる多言語文書構文解析の高速化
- Authors: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Handong Zheng, Jing Zhang, Jun Zhang, Yi Liu, Dianhai Yu, Yanjun Ma,
- Abstract要約: PaddleOCR-VL-0.9Bはコンパクトだが強力な視覚言語モデル(VLM)である
NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を実現する。
この革新的なモデルは、109言語を効率的にサポートし、複雑な要素を認識するのに優れている。
- 参考スコア(独自算出の注目度): 24.435689905776744
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we propose PaddleOCR-VL, a SOTA and resource-efficient model tailored for document parsing. Its core component is PaddleOCR-VL-0.9B, a compact yet powerful vision-language model (VLM) that integrates a NaViT-style dynamic resolution visual encoder with the ERNIE-4.5-0.3B language model to enable accurate element recognition. This innovative model efficiently supports 109 languages and excels in recognizing complex elements (e.g., text, tables, formulas, and charts), while maintaining minimal resource consumption. Through comprehensive evaluations on widely used public benchmarks and in-house benchmarks, PaddleOCR-VL achieves SOTA performance in both page-level document parsing and element-level recognition. It significantly outperforms existing solutions, exhibits strong competitiveness against top-tier VLMs, and delivers fast inference speeds. These strengths make it highly suitable for practical deployment in real-world scenarios.
- Abstract(参考訳): 本稿では,文書解析に適したSOTAモデルであるPaddleOCR-VLを提案する。
コアコンポーネントはPaddleOCR-VL-0.9Bで、NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を実現する。
この革新的なモデルは、109の言語を効率的にサポートし、リソース消費を最小限に抑えながら複雑な要素(テキスト、テーブル、公式、チャートなど)を認識するのに優れています。
広く使われている公開ベンチマークと社内ベンチマークの総合評価を通じて、PaddleOCR-VLはページレベルの文書解析と要素レベルの認識の両方においてSOTA性能を達成する。
既存のソリューションを著しく上回り、最上位のVLMに対して強力な競争力を示し、高速な推論速度を提供する。
これらの強みは、現実のシナリオにおける実践的なデプロイメントに非常に適しています。
関連論文リスト
- X-VLA: Soft-Prompted Transformer as Scalable Cross-Embodiment Vision-Language-Action Model [62.21943953611646]
Vision-Language-Actionモデルは、多様なロボットプラットフォームにわたる効果的なトレーニングに依存している。
最小限のパラメータを付加したソフトプロンプト手法を提案する。
0.9Bのインスタンス化-X-VLA-0.9Bは,ベンチマークの全体にわたってSOTA性能を同時に達成することを示す。
論文 参考訳(メタデータ) (2025-10-11T16:20:17Z) - PaddleOCR 3.0 Technical Report [21.810256827625217]
PaddleOCR 3.0は、OCRとドキュメント解析のためのApacheライセンスのオープンソースツールキットである。
主流の視覚言語モデル(VLM)と比較して、1億未満のパラメータを持つこれらのモデルは、競合する精度と効率を達成する。
論文 参考訳(メタデータ) (2025-07-08T02:14:10Z) - TAP-VL: Text Layout-Aware Pre-training for Enriched Vision-Language Models [11.508589810076147]
TAP-VLは、光学文字認識情報を異なるモダリティとして扱い、任意のビジョン・ランゲージ(VL)モデルにシームレスに統合する。
実験は、トップパフォーマンスのVLモデルにTAP-VLを適用する際に、一貫した性能改善を示す。
論文 参考訳(メタデータ) (2024-11-07T11:54:01Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
マルチモーダル文書理解は,大量のテキスト情報や視覚情報を処理し,理解するための課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - DeepSeek-VL: Towards Real-World Vision-Language Understanding [24.57011093316788]
本稿では、実世界のビジョンと言語理解アプリケーションのためのオープンソースのVision-Language(VL)モデルであるDeepSeek-VLを紹介する。
当社のアプローチは,3つの重要な側面に基づいて構成されています。
実際のユーザシナリオからユースケース分類を作成し、インストラクションチューニングデータセットを構築します。
論文 参考訳(メタデータ) (2024-03-08T18:46:00Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - A Recurrent Vision-and-Language BERT for Navigation [54.059606864535304]
本稿では,視覚・言語ナビゲーションにおける時間認識型BERTモデルを提案する。
我々のモデルは、より複雑なエンコーダデコーダモデルを置き換えることで、最先端の結果が得られる。
論文 参考訳(メタデータ) (2020-11-26T00:23:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。