論文の概要: DeepSeek-OCR 2: Visual Causal Flow
- arxiv url: http://arxiv.org/abs/2601.20552v1
- Date: Wed, 28 Jan 2026 12:46:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.929545
- Title: DeepSeek-OCR 2: Visual Causal Flow
- Title(参考訳): DeepSeek-OCR 2: 視覚的な因果流れ
- Authors: Haoran Wei, Yaofeng Sun, Yukun Li,
- Abstract要約: 本稿では,新しいエンコーダ-ディープエンコーダV2の実現可能性を検討するためにDeepSeek-OCR 2を提案する。
DeepEncoder V2は、エンコーダに因果推論機能を持たせるように設計されており、コンテンツ解釈の前に視覚トークンをインテリジェントに並べ替えることができる。
本研究は,2次元因果推論構造を用いて2次元画像理解を効果的に実現できるか否かという,新しいパラダイムを探求する。
- 参考スコア(独自算出の注目度): 15.645614449208125
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DeepSeek-OCR 2 to investigate the feasibility of a novel encoder-DeepEncoder V2-capable of dynamically reordering visual tokens upon image semantics. Conventional vision-language models (VLMs) invariably process visual tokens in a rigid raster-scan order (top-left to bottom-right) with fixed positional encoding when fed into LLMs. However, this contradicts human visual perception, which follows flexible yet semantically coherent scanning patterns driven by inherent logical structures. Particularly for images with complex layouts, human vision exhibits causally-informed sequential processing. Inspired by this cognitive mechanism, DeepEncoder V2 is designed to endow the encoder with causal reasoning capabilities, enabling it to intelligently reorder visual tokens prior to LLM-based content interpretation. This work explores a novel paradigm: whether 2D image understanding can be effectively achieved through two-cascaded 1D causal reasoning structures, thereby offering a new architectural approach with the potential to achieve genuine 2D reasoning. Codes and model weights are publicly accessible at http://github.com/deepseek-ai/DeepSeek-OCR-2.
- Abstract(参考訳): 本稿では,新しいエンコーダ-ディープエンコーダV2の実現可能性を検討するためにDeepSeek-OCR 2を提案する。
従来の視覚言語モデル(VLM)は、LLMに入力されたとき、固定された位置エンコーディングを持つ剛体ラスタースキャン順序(左上から右下)で視覚トークンを常に処理する。
しかし、これは人間の視覚的知覚と矛盾し、それは固有の論理構造によって駆動される、柔軟でセマンティックにコヒーレントな走査パターンに従う。
特に複雑なレイアウトを持つ画像の場合、人間の視覚は因果的にインフォームされたシーケンシャルな処理を示す。
この認知メカニズムにインスパイアされたDeepEncoder V2は、エンコーダに因果推論能力を持たせるように設計されており、LCMベースのコンテンツ解釈に先立って視覚トークンをインテリジェントに並べ替えることができる。
本研究は,2次元因果推論構造を用いて2次元画像理解を効果的に実現できるか否かという,新しいパラダイムを探求する。
コードとモデルウェイトはhttp://github.com/deepseek-ai/deepSeek-OCR-2.comで公開されている。
関連論文リスト
- OpenVision 3: A Family of Unified Visual Encoder for Both Understanding and Generation [101.82480298904225]
本稿では,単一で統一された視覚表現を学習する,OpenVision 3という高度な視覚エンコーダ群について述べる。
VAE圧縮されたイメージラテントをViTエンコーダに供給し、2つの補完的な役割をサポートするために出力をトレーニングします。
マルチモーダル理解のために、エンコーダをLLaVA-1.5フレームワークにプラグインします。
論文 参考訳(メタデータ) (2026-01-21T18:47:12Z) - Think-Then-Generate: Reasoning-Aware Text-to-Image Diffusion with LLM Encoders [46.79030733172859]
本稿では,テキスト・トゥ・イメージ(T2I)拡散モデルのためのシンプソン・リライト(T2G)パラダイムを提案する。
推論に基づく画像生成と編集ベンチマークにより,現実の一貫性,セマンティックアライメント,視覚的リアリズムが大幅に改善された。
この結果は,推論,表現,実証能力を備えた次世代統一モデルに向けての有望な一歩となる。
論文 参考訳(メタデータ) (2026-01-15T12:19:05Z) - The Spatial Blindspot of Vision-Language Models [3.9393480686002715]
視覚言語モデル(VLM)は急速に進歩しているが、空間的関係を捉える能力は依然として盲点である。
この空間的認識の欠如は、VLM設計における欠落次元であり、空間的接地を必要とするアプリケーションのボトルネックである、と我々は主張する。
論文 参考訳(メタデータ) (2026-01-15T00:30:34Z) - VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Unified Multimodal Model as Auto-Encoder [69.38946823657592]
本稿では,テキストに画像を圧縮するエンコーダ(I2T)と,そのテキストから画像を再構成するデコーダ(T2I)の理解に関するパラダイムを紹介する。
我々の経験的結果は、理解は生成を大幅に促進し(GenEvalで検証されている)、生成は、特にきめ細かい視覚知覚を強化することを示唆している。
論文 参考訳(メタデータ) (2025-09-11T17:57:59Z) - CoMemo: LVLMs Need Image Context with Image Memory [51.681858871027345]
CoMemoは、Contextイメージパスとイメージメモリパスを組み合わせてビジュアル処理を行うデュアルパスアーキテクチャである。
2次元空間認識を維持するためにサムネイルに基づく位置アグリゲーションを利用する新しい位置符号化機構であるRoPE-DHRを導入する。
論文 参考訳(メタデータ) (2025-06-06T17:59:06Z) - Exploring the Potential of Encoder-free Architectures in 3D LMMs [40.43146298677712]
本稿では,エンコーダをベースとした3次元大規模マルチモーダルモデルの課題を軽減するために,エンコーダフリーアーキテクチャの可能性を初めて包括的に検討する。
以上の結果から,エンコーダフリーアーキテクチャは3次元理解分野におけるエンコーダベースアーキテクチャの代替として有望であることが示された。
論文 参考訳(メタデータ) (2025-02-13T18:59:45Z) - Towards Accurate Image Coding: Improved Autoregressive Image Generation
with Dynamic Vector Quantization [73.52943587514386]
既存のベクトル量子化(VQ)ベースの自己回帰モデルは、2段階生成パラダイムに従う。
画像領域を可変長符号に符号化する動的量子化VAE(DQ-VAE)を提案する。
論文 参考訳(メタデータ) (2023-05-19T14:56:05Z) - 3D-Aware Encoding for Style-based Neural Radiance Fields [50.118687869198716]
我々は、入力画像をNeRFジェネレータの潜時空間に投影する反転関数を学び、潜時符号に基づいて原画像の新しいビューを合成する。
2次元生成モデルのGANインバージョンと比較して、NeRFインバージョンは、1)入力画像の同一性を維持するだけでなく、2)生成した新規なビューにおいて3D一貫性を確保する必要がある。
スタイルベースNeRFインバージョンのための2段階エンコーダを提案する。
論文 参考訳(メタデータ) (2022-11-12T06:14:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。