論文の概要: HunyuanOCR Technical Report
- arxiv url: http://arxiv.org/abs/2511.19575v1
- Date: Mon, 24 Nov 2025 17:59:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.104574
- Title: HunyuanOCR Technical Report
- Title(参考訳): Hunyuan OCR 技術報告
- Authors: Hunyuan Vision Team, Pengyuan Lyu, Xingyu Wan, Gengluo Li, Shangpin Peng, Weinong Wang, Liang Wu, Huawen Shen, Yu Zhou, Canhui Tang, Qi Yang, Qiming Peng, Bin Luo, Hower Yang, Houwen Peng, Hongming Yang, Senhao Xie, Binghong Wu, Mana Yang, Sergey Wang, Raccoon Liu, Dick Zhu, Jie Jiang, Linus, Han Hu, Chengquan Zhang,
- Abstract要約: HunyuanOCRは、OCRタスク専用の商用グレード、オープンソース、軽量(1Bパラメータ)ビジョンランゲージモデル(VLM)である。
認識タスク(テキストスポッティング、パーシング)における現在の公開ソリューションを超え、セマンティックタスク(IE、テキスト画像翻訳)において優れています。
3Bパラメータ未満のVLMのうち、OCRBenchのSOTA(State-of-the-art)結果が得られる。
- 参考スコア(独自算出の注目度): 28.160663178408864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents HunyuanOCR, a commercial-grade, open-source, and lightweight (1B parameters) Vision-Language Model (VLM) dedicated to OCR tasks. The architecture comprises a Native Vision Transformer (ViT) and a lightweight LLM connected via an MLP adapter. HunyuanOCR demonstrates superior performance, outperforming commercial APIs, traditional pipelines, and larger models (e.g., Qwen3-VL-4B). Specifically, it surpasses current public solutions in perception tasks (Text Spotting, Parsing) and excels in semantic tasks (IE, Text Image Translation), securing first place in the ICDAR 2025 DIMT Challenge (Small Model Track). Furthermore, it achieves state-of-the-art (SOTA) results on OCRBench among VLMs with fewer than 3B parameters. HunyuanOCR achieves breakthroughs in three key aspects: 1) Unifying Versatility and Efficiency: We implement comprehensive support for core capabilities including spotting, parsing, IE, VQA, and translation within a lightweight framework. This addresses the limitations of narrow "OCR expert models" and inefficient "General VLMs". 2) Streamlined End-to-End Architecture: Adopting a pure end-to-end paradigm eliminates dependencies on pre-processing modules (e.g., layout analysis). This fundamentally resolves error propagation common in traditional pipelines and simplifies system deployment. 3) Data-Driven and RL Strategies: We confirm the critical role of high-quality data and, for the first time in the industry, demonstrate that Reinforcement Learning (RL) strategies yield significant performance gains in OCR tasks. HunyuanOCR is officially open-sourced on HuggingFace. We also provide a high-performance deployment solution based on vLLM, placing its production efficiency in the top tier. We hope this model will advance frontier research and provide a solid foundation for industrial applications.
- Abstract(参考訳): 本稿では、OCRタスク専用の商用グレード、オープンソース、軽量(1Bパラメータ)ビジョンランゲージモデル(VLM)であるHunyuanOCRについて述べる。
アーキテクチャは、Native Vision Transformer(ViT)と、MLPアダプタを介して接続される軽量LCMを備える。
HunyuanOCRは、優れたパフォーマンスを示し、商用API、従来のパイプライン、より大きなモデル(例えば、Qwen3-VL-4B)を上回るパフォーマンスを示している。
具体的には、認識タスク(テキストスポッティング、パーシング)における現在の公開ソリューションを超え、セマンティックタスク(IE、テキスト画像変換)において優れており、ICDAR 2025 DIMT Challenge (Small Model Track)において第1位を確保している。
さらに,3Bパラメータ未満のVLMにおいて,OCRBenchに対するSOTA(State-of-the-art)結果が得られる。
Hunyuan OCRは3つの重要な側面でブレークスルーを達成する。
1) 検証性と効率性の統一: スポッティング、パース、IE、VQA、翻訳などのコア機能に対する包括的なサポートを軽量フレームワーク内で実装する。
これは狭義の「OCRエキスパートモデル」と非効率な「ジェネラルVLM」の限界に対処する。
2) エンドツーエンドアーキテクチャの合理化: 純粋なエンドツーエンドパラダイムを採用すると、前処理モジュール(レイアウト分析など)への依存がなくなる。
これは、従来のパイプラインで共通するエラーの伝搬を根本的に解決し、システムデプロイメントを単純化する。
3)データ駆動型とRL戦略: 高品質なデータの重要な役割を確認し、業界で初めて、強化学習(RL)戦略がOCRタスクにおいて大きなパフォーマンス向上をもたらすことを実証します。
HunyuanOCRはHuggingFace上で公式にオープンソース化されている。
vLLMをベースとした高性能なデプロイメントソリューションも提供しています。
このモデルがフロンティア研究を前進させ、産業応用のためのしっかりとした基盤を提供することを期待している。
関連論文リスト
- Run, Ruminate, and Regulate: A Dual-process Thinking System for Vision-and-Language Navigation [52.11339614452127]
VLN(Vision-and-Language Navigation)は、エージェントが人間の指示に従って複雑な3D環境を動的に探索する必要がある。
近年の研究では、一般的な知識と一般的な推論能力から、大きな言語モデル(LLM)をVLNに活用する可能性を強調している。
本稿では、LLMの一般化機能とVLN固有の専門知識をゼロショットで統合する、R3と呼ばれる新しいデュアルプロセス思考フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-18T04:32:00Z) - AI Progress Should Be Measured by Capability-Per-Resource, Not Scale Alone: A Framework for Gradient-Guided Resource Allocation in LLMs [7.850805629833066]
AI開発は、機能のみではなく、機能毎のリソースに向けて根本的にリダイレクトされるべきである、と私たちは主張する。
本稿では、勾配の影響パターンによって導かれる資源配分決定が、AIライフサイクル全体を通して劇的に効率を向上させることを実証する理論的枠組みを示す。
論文 参考訳(メタデータ) (2025-11-02T20:59:51Z) - SAIL-VL2 Technical Report [65.45818722427506]
広義のマルチモーダル理解と推論のためのオープン・スイート・ビジョン・ファンデーション・モデル(LVM)であるSAIL-VL2を紹介する。
SAIL-VL2は2Bと8Bのパラメータスケールで様々な画像とビデオのベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-09-17T14:34:02Z) - DianJin-OCR-R1: Enhancing OCR Capabilities via a Reasoning-and-Tool Interleaved Vision-Language Model [9.557159109747372]
大型視覚言語モデル(LVLM)は、入力画像に存在しない単語を生成する幻覚を引き起こす傾向がある。
DianJin-OCR-R1は、ドメイン固有のデータセットに基づいて訓練された推論とツールをインターリーブしたVLMである。
論文 参考訳(メタデータ) (2025-08-18T03:28:57Z) - Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - Reason-RFT: Reinforcement Fine-Tuning for Visual Reasoning of Vision Language Models [42.75418134743927]
Reason-RFTは視覚的推論のための2段階強化微調整フレームワークである。
第一に、CoTデータをキュレートしたスーパービジョンファインチューニング(SFT)は、ビジョンランゲージモデル(VLM)の推論ポテンシャルを活性化する
第2に、グループ相対政策最適化(GRPO)に基づく強化学習は、複数の推論応答対を生成し、ドメインシフトへの適応性を高める。
論文 参考訳(メタデータ) (2025-03-26T17:38:06Z) - SOLO: A Single Transformer for Scalable Vision-Language Modeling [74.05173379908703]
我々はvisiOn-Language mOdelingのための単一変換器SOLOを提案する。
SOLOのような統一された単一トランスフォーマーアーキテクチャは、LVLMにおけるこれらのスケーラビリティ上の懸念に効果的に対処する。
本稿では,オープンソースの7B LVLMであるSOLOの開発のための,最初のオープンソーストレーニングレシピを紹介する。
論文 参考訳(メタデータ) (2024-07-08T22:40:15Z) - Donut: Document Understanding Transformer without OCR [17.397447819420695]
我々は,OCRフレームワークを基盤にすることなく,エンドツーエンドのトレーニングが可能な新しいVDUモデルを提案する。
提案手法は,公開ベンチマークデータセットとプライベート産業サービスデータセットの各種文書理解タスクにおける最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-11-30T18:55:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。