論文の概要: Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR
- arxiv url: http://arxiv.org/abs/2601.03714v2
- Date: Thu, 08 Jan 2026 08:37:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 13:05:36.781919
- Title: Visual Merit or Linguistic Crutch? A Close Look at DeepSeek-OCR
- Title(参考訳): 視覚的メリットか言語的クラッチか?DeepSeek-OCRを詳しく見てみよう
- Authors: Yunhao Liang, Ruixuan Ying, Bo Li, Hong Li, Kai Yan, Qingwen Li, Min Yang, Okamoto Satoshi, Zhe Cui, Shiwen Ni,
- Abstract要約: DeepSeek-OCRは、入力された視覚トークンの10倍以上のテキストトークンをデコードすると主張している。
我々は,本モデル固有のOCR能力を言語先行から分離するために,文レベルおよび単語レベルの意味的腐敗を用いる。
従来のパイプラインOCR法は, 従来のパイプラインOCR法に比べて, 意味摂動に対するロバスト性が高いことがわかった。
- 参考スコア(独自算出の注目度): 25.00433693229684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: DeepSeek-OCR utilizes an optical 2D mapping approach to achieve high-ratio vision-text compression, claiming to decode text tokens exceeding ten times the input visual tokens. While this suggests a promising solution for the LLM long-context bottleneck, we investigate a critical question: "Visual merit or linguistic crutch - which drives DeepSeek-OCR's performance?" By employing sentence-level and word-level semantic corruption, we isolate the model's intrinsic OCR capabilities from its language priors. Results demonstrate that without linguistic support, DeepSeek-OCR's performance plummets from approximately 90% to 20%. Comparative benchmarking against 13 baseline models reveals that traditional pipeline OCR methods exhibit significantly higher robustness to such semantic perturbations than end-to-end methods. Furthermore, we find that lower visual token counts correlate with increased reliance on priors, exacerbating hallucination risks. Context stress testing also reveals a total model collapse around 10,000 text tokens, suggesting that current optical compression techniques may paradoxically aggravate the long-context bottleneck. This study empirically defines DeepSeek-OCR's capability boundaries and offers essential insights for future optimizations of the vision-text compression paradigm. We release all data, results and scripts used in this study at https://github.com/dududuck00/DeepSeekOCR.
- Abstract(参考訳): DeepSeek-OCRは光学的2Dマッピング手法を用いて高比の視覚テキスト圧縮を実現し、入力された視覚トークンの10倍以上のテキストトークンをデコードする。
このことは、LLMの長期コンテキストボトルネックに対する有望な解決策であることを示しているが、批判的な質問について調査する: "ビジュアルアドバンスか言語的クラッチ – DeepSeek-OCRのパフォーマンスを駆動するか?
文レベルと単語レベルのセマンティックな汚濁を利用して、本質的なOCR機能を言語先行から分離する。
その結果,DeepSeek-OCRのパフォーマンスは約90%から20%に低下した。
13のベースラインモデルとの比較ベンチマークにより、従来のパイプラインOCR法は、エンド・ツー・エンド法よりも、このようなセマンティック・摂動に対するロバスト性が高いことが示された。
さらに,視覚的トークン数の減少は,前者への依存度の増加と相関し,幻覚のリスクが悪化することがわかった。
コンテキストストレステストはまた、1万のテキストトークンに関する総モデル崩壊を明らかにし、現在の光学的圧縮技術が長文ボトルネックをパラドックス的に悪化させる可能性があることを示唆している。
本研究では,DeepSeek-OCRの機能境界を実証的に定義し,視覚テキスト圧縮パラダイムの今後の最適化に不可欠な知見を提供する。
この研究で使用されるすべてのデータ、結果、スクリプトは、https://github.com/dududuck00/DeepSeekOCRで公開しています。
関連論文リスト
- Optical Context Compression Is Just (Bad) Autoencoding [32.622769616423035]
DeepSeek-OCRは、レンダリングされたテキストは少数の視覚トークンから高い忠実度で再構成できることを示した。
我々は、視覚ベースの圧縮が圧縮された表現からテキストを復元する際、ユニークな利点をもたらすという2つの仮定を暗黙的に検証し、DeepSeek-OCRの再構成結果は、視覚ベースの圧縮が言語モデリングに有用であることを示すものである。
論文 参考訳(メタデータ) (2025-12-03T10:27:27Z) - DeepSeek-OCR: Contexts Optical Compression [15.645614449208125]
我々は,DeepSeek-OCRを,光学的2次元マッピングによる長期コンテキストの圧縮の実現可能性に関する最初の調査として紹介する。
DeepSeek-OCRはDeepEncoderとDeepSeek3B-MoE-A570Mの2つのコンポーネントで構成されている。
実験により、テキストトークンの数がビジョントークンの10倍以内であれば、モデルがデコード(OCR)精度を97%達成できることが示された。
論文 参考訳(メタデータ) (2025-10-21T02:41:44Z) - Glyph: Scaling Context Windows via Visual-Text Compression [91.20717058018745]
Glyphは、長いテキストを画像にレンダリングし、視覚言語モデルで処理するフレームワークである。
提案手法は,従来の長文モデルに匹敵する精度を維持しつつ,3~4倍のトークン圧縮を実現する。
極端な圧縮では、128KテキストのVLMが1Mレベルのテキストタスクにスケールできる。
論文 参考訳(メタデータ) (2025-10-20T17:58:56Z) - VScan: Rethinking Visual Token Reduction for Efficient Large Vision-Language Models [57.2662376527586]
VScanは2段階のビジュアルトークン削減フレームワークである。
1)グローバルスキャンとローカルスキャンを視覚的エンコーディング中にマージすることで,(2)言語モデルの中間層にプルーニングを導入する。
VScanはプリフィルの2.91$times$スピードアップとFLOPの10$times$ダウンを実現し、オリジナルのパフォーマンスの95.4%を維持した。
論文 参考訳(メタデータ) (2025-05-28T17:59:08Z) - End-to-End Semantic Preservation in Text-Aware Image Compression Systems [42.76781276416154]
光文字認識(OCR)のためのテキスト固有の特徴を保持するエンドツーエンド圧縮フレームワークを提案する。
実験では、低速度でのテキスト抽出精度が大幅に向上し、圧縮されていない画像ではOCRよりも優れていた。
我々はこの研究を汎用エンコーダに拡張し、極端圧縮下で隠れセマンティクスを保存する能力を探究する。
論文 参考訳(メタデータ) (2025-03-25T09:36:13Z) - Vision-centric Token Compression in Large Language Model [51.92055188780033]
Vision Centric Token Compression (Vist)は、人間の読書を反映した高速圧縮フレームワークである。
11のコンテキスト内学習ベンチマークでは、Vistは同じ精度を2.3倍のトークンで達成し、FLOPを16%削減し、メモリを50%削減した。
論文 参考訳(メタデータ) (2025-02-02T13:10:06Z) - Improving Vision Anomaly Detection with the Guidance of Language
Modality [64.53005837237754]
本稿では,マルチモーダルの観点から視覚モダリティの課題に取り組む。
本稿では,冗長な情報問題とスパース空間問題に対処するために,クロスモーダルガイダンス(CMG)を提案する。
視覚異常検出のためのよりコンパクトな潜在空間を学習するために、CMLEは言語モダリティから相関構造行列を学習する。
論文 参考訳(メタデータ) (2023-10-04T13:44:56Z) - To show or not to show: Redacting sensitive text from videos of
electronic displays [4.621328863799446]
我々は,光学文字認識 (OCR) と自然言語処理 (NLP) を組み合わせて,ビデオから個人識別可能なテキストを再生成する手法を定義する。
具体的には,Google Cloud Vision (GCV) の Tesseract と OCR システムを,異なる OCR モデルで使用する場合の,このアプローチの相対的性能について検討する。
論文 参考訳(メタデータ) (2022-08-19T07:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。