論文の概要: PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing
- arxiv url: http://arxiv.org/abs/2601.21957v1
- Date: Thu, 29 Jan 2026 16:35:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:50.000857
- Title: PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing
- Title(参考訳): PaddleOCR-VL-1.5:ロバスト・イン・ザ・ワイヤド文書解析のためのマルチタスク0.9B VLMを目指して
- Authors: Cheng Cui, Ting Sun, Suyin Liang, Tingquan Gao, Zelun Zhang, Jiaxuan Liu, Xueqing Wang, Changda Zhou, Hongen Liu, Manhui Lin, Yue Zhang, Yubo Zhang, Yi Liu, Dianhai Yu, Yanjun Ma,
- Abstract要約: 我々はOmniDocBench v1.5上で94.5%の新しい最先端(SOTA)精度を実現するアップグレードモデルであるPaddleOCR-VL-1.5を紹介する。
我々は,シール認識とテキストスポッティングタスクを組み込むことでモデルの能力を拡張し,0.9B超コンパクトVLMを高効率で維持する。
- 参考スコア(独自算出の注目度): 16.27904802735372
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PaddleOCR-VL-1.5, an upgraded model achieving a new state-of-the-art (SOTA) accuracy of 94.5% on OmniDocBench v1.5. To rigorously evaluate robustness against real-world physical distortions, including scanning, skew, warping, screen-photography, and illumination, we propose the Real5-OmniDocBench benchmark. Experimental results demonstrate that this enhanced model attains SOTA performance on the newly curated benchmark. Furthermore, we extend the model's capabilities by incorporating seal recognition and text spotting tasks, while remaining a 0.9B ultra-compact VLM with high efficiency. Code: https://github.com/PaddlePaddle/PaddleOCR
- Abstract(参考訳): 我々はOmniDocBench v1.5上で94.5%の新しい最先端(SOTA)精度を実現するアップグレードモデルであるPaddleOCR-VL-1.5を紹介する。
走査,スキュー,ワープ,スクリーンフォトグラフィ,照明などの実世界の物理的歪みに対する堅牢性を評価するため,Real5-OmniDocBenchベンチマークを提案する。
実験により, この改良されたモデルにより, 新たなベンチマークでSOTA性能が得られた。
さらに,アザラシ認識とテキストスポッティングタスクを組み込むことでモデルの性能を向上するとともに,0.9B超コンパクトVLMを高効率で維持する。
コード:https://github.com/PaddlePaddle/PaddleOCR
関連論文リスト
- NORA-1.5: A Vision-Language-Action Model Trained using World Model- and Action-based Preference Rewards [41.87267797252411]
視覚言語アクション(VLA)モデルは、最近様々な具体的タスクにおいて有望な性能を示したが、信頼性と一般化が不足している。
トレーニング済みのNORAバックボーンから構築したVLAモデルであるNORA-1.5について,フローマッチングに基づくアクションエキスパートを付加して紹介する。
堅牢性とタスクの成功をさらに改善するため、我々はVLAポリシーの訓練後の報酬モデルを開発した。
論文 参考訳(メタデータ) (2025-11-18T16:55:48Z) - PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model [24.435689905776744]
PaddleOCR-VL-0.9Bはコンパクトだが強力な視覚言語モデル(VLM)である
NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を実現する。
この革新的なモデルは、109言語を効率的にサポートし、複雑な要素を認識するのに優れている。
論文 参考訳(メタデータ) (2025-10-16T10:18:48Z) - PocketSR: The Super-Resolution Expert in Your Pocket Mobiles [69.26751136689533]
リアルワールド・イメージ・スーパーレゾリューション (RealSR) は、携帯電話が捉えたような、Wild内の画像の視覚的品質を高めることを目的としている。
大規模な生成モデルを利用する既存の手法は印象的な結果を示しているが、計算コストとレイテンシが高いため、エッジ配置には実用的ではない。
超軽量単一ステップモデルであるPocketSRを導入し,高忠実度を維持しつつ生成モデリング機能をRealSRにもたらす。
論文 参考訳(メタデータ) (2025-10-03T13:56:18Z) - On Robustness of Vision-Language-Action Model against Multi-Modal Perturbations [52.1029745126386]
視覚-言語-アクション(VLA)モデルでは、現実世界の摂動に対する堅牢性は、デプロイに不可欠である。
本稿では,VLA入力と出力の摂動に対するロバストVLAを提案する。
LIBEROの実験では、ロバストVLAは、pi0バックボーンで12.6%、OpenVLAバックボーンで10.4%のベースラインをはるかに上回っている。
論文 参考訳(メタデータ) (2025-09-26T14:42:23Z) - Robust Fine-tuning of Zero-shot Models via Variance Reduction [56.360865951192324]
微調整ゼロショットモデルの場合、このデシドラトゥムは細調整モデルで、分布内(ID)と分布外(OOD)の両方で優れる。
トレードオフを伴わずに最適なIDとOODの精度を同時に達成できるサンプルワイズアンサンブル手法を提案する。
論文 参考訳(メタデータ) (2024-11-11T13:13:39Z) - Grounding DINO 1.5: Advance the "Edge" of Open-Set Object Detection [23.464027681439706]
Grounding DINO 1.5はIDEA Researchが開発した高度なオープンセットオブジェクト検出モデルである。
グラウンドディング DINO 1.5 Pro は、幅広いシナリオにまたがるより強力な一般化機能のために設計された高性能モデルである。
DINO 1.5 Edgeは、エッジデプロイメントを必要とする多くのアプリケーションで要求される高速なスピードを実現するための、効率的な最適化モデルである。
論文 参考訳(メタデータ) (2024-05-16T17:54:15Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。