論文の概要: PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training
- arxiv url: http://arxiv.org/abs/2606.03264v1
- Date: Tue, 02 Jun 2026 07:27:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.836798
- Title: PaddleOCR-VL-1.6: Expanding the Frontier of Document Parsing with Under-Optimized Region Refinement and Progressive Post-Training
- Title(参考訳): PaddleOCR-VL-1.6:Under-Optimized Region RefinementとProgressive Post-Trainingによる文書解析のフロンティア拡大
- Authors: Zelun Zhang, Hongen Liu, Suyin Liang, Yubo Zhang, Yiqing Xiang, Jiaxuan Liu, Ting Sun, Manhui Lin, Yue Zhang, Changda Zhou, Tingquan Gao, Cheng Cui, Yi Liu, Dianhai Yu, Yanjun Ma,
- Abstract要約: PaddleOCR-VL-1.6はPaddleOCR-VL-1.5上に構築された文書解析モデルである。
PaddleOCR-VL-1.6は、従来のモデルから弱い領域を識別し、これらの領域にターゲット拡張を適用し、監視信号の信頼性を向上させる、地域対応データ最適化フレームワークを導入している。
OmniDocBench v1.6で96.33%という新しい最先端のスコアを獲得し、上位層のVLMに対して強い競争力を示し、PaddleOCR-VLシリーズの実践的なポストトレーニングレシピを提供する。
- 参考スコア(独自算出の注目度): 15.243154021911884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PaddleOCR-VL-1.6, an upgraded compact document parsing model built upon PaddleOCR-VL-1.5. Although PaddleOCR-VL-1.5 establishes a strong 0.9B baseline, its remaining errors concentrate in under-optimized regions where model behavior is unstable, data coverage is sparse, or supervision is unreliable. Rather than expanding the training corpus indiscriminately, PaddleOCR-VL-1.6 introduces a region-aware data optimization framework that identifies weak regions from the previous model, applies targeted enhancement to these regions, and improves the reliability of supervision signals. It further adopts a progressive post-training recipe based on curated data selection and reinforcement learning, pushing model performance to a higher level through staged optimization. PaddleOCR-VL-1.6 achieves a new state-of-the-art score of 96.33% on OmniDocBench v1.6, demonstrates strong competitiveness against top-tier VLMs, and provides a practical post-training recipe for the PaddleOCR-VL series.
- Abstract(参考訳): PaddleOCR-VL-1.6はPaddleOCR-VL-1.5上に構築された文書解析モデルである。
PaddleOCR-VL-1.5 は 0.9B のベースラインを確立するが、残りのエラーはモデル動作が不安定な未最適化領域、データカバレッジが不足している領域、あるいは監視不能な領域に集中する。
PaddleOCR-VL-1.6は、トレーニングコーパスを無差別に拡張する代わりに、従来のモデルから弱い領域を特定し、これらの領域にターゲット拡張を適用し、監視信号の信頼性を向上させる、リージョン対応のデータ最適化フレームワークを導入している。
さらに、キュレートされたデータ選択と強化学習に基づいて、プログレッシブなポストトレーニングレシピを採用し、ステージ化された最適化を通じて、モデルパフォーマンスをより高いレベルに押し上げる。
PaddleOCR-VL-1.6はOmniDocBench v1.6で96.33%の新たな最先端スコアを獲得し、上位層のVLMに対して強い競争力を示し、PaddleOCR-VLシリーズの実践的な後トレーニングレシピを提供する。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization [64.95520246570446]
ポリシ比の分散を明示的に制約することは、信頼領域の制約に対する原則的な局所近似をもたらすことを示す。
本稿では,この制約を実装したR2bf VPO$(Ratio-Variance Regularized Policy Optimization)を紹介する。
論文 参考訳(メタデータ) (2026-05-26T09:53:42Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - PaddleOCR-VL-1.5: Towards a Multi-Task 0.9B VLM for Robust In-the-Wild Document Parsing [16.27904802735372]
我々はOmniDocBench v1.5上で94.5%の新しい最先端(SOTA)精度を実現するアップグレードモデルであるPaddleOCR-VL-1.5を紹介する。
我々は,シール認識とテキストスポッティングタスクを組み込むことでモデルの能力を拡張し,0.9B超コンパクトVLMを高効率で維持する。
論文 参考訳(メタデータ) (2026-01-29T16:35:04Z) - PaddleOCR-VL: Boosting Multilingual Document Parsing via a 0.9B Ultra-Compact Vision-Language Model [24.435689905776744]
PaddleOCR-VL-0.9Bはコンパクトだが強力な視覚言語モデル(VLM)である
NaViTスタイルの動的解像度ビジュアルエンコーダとERNIE-4.5-0.3B言語モデルを統合し、正確な要素認識を実現する。
この革新的なモデルは、109言語を効率的にサポートし、複雑な要素を認識するのに優れている。
論文 参考訳(メタデータ) (2025-10-16T10:18:48Z) - CTR-LoRA: Curvature-Aware and Trust-Region Guided Low-Rank Adaptation for Large Language Models [23.34193229321038]
CTR-LoRAは、ランクスケジューリングと安定性を考慮した最適化を統合している。
複数のオープンソースバックボーン(7B-13B)の実験では、強力なPEFTベースラインよりも一貫した改善が見られた。
論文 参考訳(メタデータ) (2025-10-11T20:05:56Z) - ReasonFlux-PRM: Trajectory-Aware PRMs for Long Chain-of-Thought Reasoning in LLMs [75.72672339168092]
本稿では,新しいトラジェクトリ対応PRMであるReasonFlux-PRMを紹介し,トラジェクトリ応答型推論トレースの評価を行う。
ReasonFlux-PRMはステップレベルとトラジェクトリレベルの両方の監視機能を備えており、構造化された連鎖データと整合した微粒な報酬割り当てを可能にする。
得られたReasonFlux-PRM-7Bは、教師付き微調整で平均12.1%、強化学習で4.5%、テスト時間スケーリングで6.3%向上した。
論文 参考訳(メタデータ) (2025-06-23T17:59:02Z) - Certified Training with Branch-and-Bound: A Case Study on Lyapunov-stable Neural Control [64.58719561861079]
我々は,CT-BaBという新しい,一般の認定トレーニングフレームワークを開発した。
比較的大きな関心領域を扱うために,我々は,ブランチ・アンド・バウンド(ブランチ・アンド・バウンド)のトレーニングタイムの新しい枠組みを提案する。
私たちの新しいトレーニングフレームワークは、テスト時により効率的に検証可能なモデルを生成することができることを実証しています。
論文 参考訳(メタデータ) (2024-11-27T11:12:46Z) - SALSA: Soup-based Alignment Learning for Stronger Adaptation in RLHF [22.88031166401938]
本稿では、より柔軟でより良い位置参照モデルを作成することにより、制限を克服する新しいアプローチであるSALSAを提案する。
SALSAは、より良い探索を奨励し、より高い報酬を達成し、モデルの堅牢性、アウト・オブ・ディストリビューション、パフォーマンスを向上させる。
論文 参考訳(メタデータ) (2024-11-04T04:53:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。