論文の概要: GLM-OCR Technical Report
- arxiv url: http://arxiv.org/abs/2603.10910v1
- Date: Wed, 11 Mar 2026 15:55:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:33.03898
- Title: GLM-OCR Technical Report
- Title(参考訳): GLM-OCR技術報告
- Authors: Shuaiqi Duan, Yadong Xue, Weihan Wang, Zhe Su, Huan Liu, Sheng Yang, Guobing Gan, Guo Wang, Zihan Wang, Shengdong Yan, Dexin Jin, Yuxuan Zhang, Guohong Wen, Yanfeng Wang, Yutao Zhang, Xiaohan Zhang, Wenyi Hong, Yukuo Cen, Da Yin, Bin Chen, Wenmeng Yu, Xiaotao Gu, Jie Tang,
- Abstract要約: GLM-OCRは実世界の文書理解のために設計された効率的なコンパクトモデルである。
CogViTビジュアルエンコーダとGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
公開ベンチマークと産業シナリオの大規模な評価は、GLM-OCRが競争力や最先端のパフォーマンスを達成することを示している。
- 参考スコア(独自算出の注目度): 65.42028025507491
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: GLM-OCR is an efficient 0.9B-parameter compact multimodal model designed for real-world document understanding. It combines a 0.4B-parameter CogViT visual encoder with a 0.5B-parameter GLM language decoder, achieving a strong balance between computational efficiency and recognition performance. To address the inefficiency of standard autoregressive decoding in deterministic OCR tasks, GLM-OCR introduces a Multi-Token Prediction (MTP) mechanism that predicts multiple tokens per step, significantly improving decoding throughput while keeping memory overhead low through shared parameters. At the system level, a two-stage pipeline is adopted: PP-DocLayout-V3 first performs layout analysis, followed by parallel region-level recognition. Extensive evaluations on public benchmarks and industrial scenarios show that GLM-OCR achieves competitive or state-of-the-art performance in document parsing, text and formula transcription, table structure recovery, and key information extraction. Its compact architecture and structured generation make it suitable for both resource-constrained edge deployment and large-scale production systems.
- Abstract(参考訳): GLM-OCR は実世界の文書理解のために設計された 0.9B パラメータのコンパクトマルチモーダルモデルである。
0.4BパラメータのCagViTビジュアルエンコーダと0.5BパラメータのGLM言語デコーダを組み合わせることで、計算効率と認識性能のバランスが強い。
決定論的OCRタスクにおける標準自己回帰デコーディングの非効率性に対処するため、GLM-OCRは、ステップ毎に複数のトークンを予測するマルチトークン予測(MTP)機構を導入し、メモリオーバーヘッドを共有パラメータを通して低く保ちながらデコーディングスループットを大幅に改善した。
PP-DocLayout-V3はまずレイアウト解析を行い、続いて並列領域レベルの認識を行う。
GLM-OCRは、文書解析、テキストと公式の書き起こし、表構造回復、キー情報抽出において、競争または最先端のパフォーマンスを達成することを示す。
そのコンパクトなアーキテクチャと構造化された生成は、リソース制約のあるエッジデプロイメントと大規模プロダクションシステムの両方に適している。
関連論文リスト
- FireRed-OCR Technical Report [30.019999826760003]
本稿では,汎用VLMを専門家を解析するピクセル精度構造文書に変換するフレームワークFireRed-OCRを紹介する。
高品質な構造化データの不足に対処するため,Geometry + Semantics's Data Factoryを構築した。
本稿では,画素レベルの認識から論理構造生成へモデルを導く三段階プログレッシブトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2026-03-02T13:19:23Z) - MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - Hybrid OCR-LLM Framework for Enterprise-Scale Document Information Extraction Under Copy-heavy Task [11.672798725644121]
この作業は、OCRエンジンとLLM(Large Language Models)を戦略的に組み合わせて、反復的な文書抽出タスクに固有の正確性と効率のトレードオフを最適化する。
3つの抽出パラダイム(ダイレクト、リプレース、テーブルベース)にまたがる25のコンフィギュレーションを、4つのフォーマットにまたがるIDドキュメント上で実装し、評価する。
論文 参考訳(メタデータ) (2025-10-11T09:40:34Z) - RCR-Router: Efficient Role-Aware Context Routing for Multi-Agent LLM Systems with Structured Memory [57.449129198822476]
RCRは、マルチエージェント大言語モデル(LLM)システムのためのロールアウェアコンテキストルーティングフレームワークである。
役割とタスクステージに基づいて、各エージェントに対して意味的に関連するメモリサブセットを動的に選択する。
軽量スコアリングポリシは、メモリ選択をガイドし、エージェント出力を共有メモリストアに統合する。
論文 参考訳(メタデータ) (2025-08-06T21:59:34Z) - A Lightweight Multi-Module Fusion Approach for Korean Character Recognition [0.0]
SDA-Netは、堅牢な単一文字認識のための軽量で効率的なアーキテクチャである。
挑戦的なOCRベンチマークで最先端の精度を実現し、推論が大幅に高速になる。
論文 参考訳(メタデータ) (2025-04-08T07:50:19Z) - VISTA-OCR: Towards generative and interactive end to end OCR models [3.7548609506798494]
VISTA-OCRは、単一の生成モデル内でテキストの検出と認識を統合する軽量アーキテクチャである。
エンコーダ-デコーダアーキテクチャに基づいて構築されたVISTA-OCRは、視覚的特徴抽出フェーズから始まり、徐々に訓練される。
モデルの性能を高めるために、バウンディングボックスアノテーションと合成サンプルで強化された実世界のサンプルからなる新しいデータセットを構築した。
論文 参考訳(メタデータ) (2025-04-04T17:39:53Z) - Efficient Multi-Instance Generation with Janus-Pro-Dirven Prompt Parsing [53.295515505026096]
Janus-Pro-driven Prompt Parsingは、テキスト理解とレイアウト生成をブリッジするプロンプト解析モジュールである。
MIGLoRAはパラメータ効率の良いプラグインで、低ランク適応を UNet (SD1.5) と DiT (SD3) のバックボーンに統合する。
提案手法はパラメータ効率を維持しつつCOCOおよびLVISベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2025-03-27T00:59:14Z) - Let's Fuse Step by Step: A Generative Fusion Decoding Algorithm with LLMs for Robust and Instruction-Aware ASR and OCR [13.759053227199106]
GFD (Generative Fusion Decoding) は、大規模言語モデルとクロスモーダルテキスト認識システムを統合するために設計された。
GFDが異なるモデルのミスマッチしたトークン空間をまたいで動作できるようにするために必要な定式化を導出する。
GFDはプラグアンドプレイで、様々な自動回帰モデルと容易に互換性がある。
論文 参考訳(メタデータ) (2024-05-23T07:39:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。