論文の概要: DeepSeek-OCR: Contexts Optical Compression
- arxiv url: http://arxiv.org/abs/2510.18234v1
- Date: Tue, 21 Oct 2025 02:41:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:12.824995
- Title: DeepSeek-OCR: Contexts Optical Compression
- Title(参考訳): DeepSeek-OCR: コンテキスト光圧縮
- Authors: Haoran Wei, Yaofeng Sun, Yukun Li,
- Abstract要約: 我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。
DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。
実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
- 参考スコア(独自算出の注目度): 15.645614449208125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DeepSeek-OCR as an initial investigation into the feasibility of compressing long contexts via optical 2D mapping. DeepSeek-OCR consists of two components: DeepEncoder and DeepSeek3B-MoE-A570M as the decoder. Specifically, DeepEncoder serves as the core engine, designed to maintain low activations under high-resolution input while achieving high compression ratios to ensure an optimal and manageable number of vision tokens. Experiments show that when the number of text tokens is within 10 times that of vision tokens (i.e., a compression ratio < 10x), the model can achieve decoding (OCR) precision of 97%. Even at a compression ratio of 20x, the OCR accuracy still remains at about 60%. This shows considerable promise for research areas such as historical long-context compression and memory forgetting mechanisms in LLMs. Beyond this, DeepSeek-OCR also demonstrates high practical value. On OmniDocBench, it surpasses GOT-OCR2.0 (256 tokens/page) using only 100 vision tokens, and outperforms MinerU2.0 (6000+ tokens per page on average) while utilizing fewer than 800 vision tokens. In production, DeepSeek-OCR can generate training data for LLMs/VLMs at a scale of 200k+ pages per day (a single A100-40G). Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR.
- Abstract(参考訳): 我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。
DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。
具体的には、DeepEncoderはコアエンジンとして機能し、高解像度の入力下での低いアクティベーションを維持すると同時に、高い圧縮比を達成し、最適かつ管理可能な多数の視覚トークンを確保するように設計されている。
実験により、テキストトークンの数が視覚トークンの10倍(圧縮比<10x)である場合、モデルの復号精度は97%となる。
圧縮比が20倍であっても、OCRの精度は60%程度である。
このことは、LLMの歴史的長文圧縮やメモリ忘れ機構などの研究領域にかなり有望であることを示している。
この他にも、DeepSeek-OCRは高い実用価値を示している。
OmniDocBenchでは、100個の視覚トークンを使用してGOT-OCR2.0(256トークン/ページ)を超え、800個未満の視覚トークンを使用してMinerU2.0(平均6000以上のトークン)を上回っている。
実運用では、DeepSeek-OCRはLLM/VLMのトレーニングデータを1日に200k以上のページ(A100-40G)で生成することができる。
コードとモデルの重み付けはhttp://github.com/deepseek-ai/deepSeek-OCRで公開されている。
関連論文リスト
- Glyph: Scaling Context Windows via Visual-Text Compression [91.20717058018745]
Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
論文 参考訳(メタデータ) (2025-10-20T17:58:56Z) - VisionSelector: End-to-End Learnable Visual Token Compression for Efficient Multimodal LLMs [82.72388893596555]
MLLM(Multimodal Large Language Models)は、計算とメモリのボトルネックに遭遇する。
従来のトークン圧縮技術は、重要な情報を破棄するリスクを負うルールによって制約されることが多い。
我々は,トークン圧縮をエンドツーエンドの学習可能な決定プロセスに再構成する軽量なプラグアンドプレイフレームワークとして,トークン圧縮を再構成する。
論文 参考訳(メタデータ) (2025-10-18T17:54:18Z) - R1-Compress: Long Chain-of-Thought Compression via Chunk Compression and Search [61.4807238517108]
CoT(Chain-of-Thought)推論は、ステップバイステップの問題解決を可能にすることで、大きな言語モデル(LLM)を強化する。
CoTのLong-CoTへの拡張はトークン長の増加による計算オーバーヘッドを大幅に増加させる。
ローカル情報とコヒーレンスの両方を保存する2段階のチャンクレベル圧縮フレームワークであるR1-Compressを提案する。
論文 参考訳(メタデータ) (2025-05-22T16:06:59Z) - End-to-End Semantic Preservation in Text-Aware Image Compression Systems [42.76781276416154]
光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - General OCR Theory: Towards OCR-2.0 via a Unified End-to-end Model [22.834085739828815]
我々は,OCR-2.0の到来を促進するために,汎用OCR理論と優れたモデル,すなわちGOTを提案する。
GOTは580Mパラメータを持ち、高圧縮エンコーダと長文デコーダからなる統一的でエレガントでエンドツーエンドのモデルである。
OCR-2.0モデルとして、GOTは様々なOCRタスクで上記の「キャラクタ」を処理できる。
論文 参考訳(メタデータ) (2024-09-03T08:41:31Z) - DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model [118.06260386652778]
We present DeepSeek-V2, a strong Mixture-of-Experts (MoE) language model characterized by economical training and efficient inference。
DeepSeek-V2は、MLA(Multi-head Latent Attention)やDeepSeekMoEといった革新的なアーキテクチャを採用している。
DeepSeek-V2はDeepSeek 67Bと比較して大幅に性能が向上し、トレーニングコストは42.5%削減された。
論文 参考訳(メタデータ) (2024-05-07T15:56:43Z) - An end-to-end Optical Character Recognition approach for
ultra-low-resolution printed text images [0.0]
低解像度画像上で光文字認識(OCR)を行う新しい手法を提案する。
このアプローチは、人間の視覚システムに対する理解から着想を得て、OCRを実行するための確立されたニューラルネットワークを構築します。
平均文字レベル精度 (cla) は99.7%、単語レベル精度 (wla) は98.9%であり、60dpiテキストの約1000ページにわたる。
論文 参考訳(メタデータ) (2021-05-10T17:08:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。