論文の概要: OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
- arxiv url: http://arxiv.org/abs/2602.08683v1
- Date: Mon, 09 Feb 2026 14:06:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.267185
- Title: OneVision-Encoder: Codec-Aligned Sparsity as a Foundational Principle for Multimodal Intelligence
- Title(参考訳): OneVision-Encoder:マルチモーダルインテリジェンスの基本原理としてのCodec-Aligned Sparsity
- Authors: Feilong Tang, Xiang An, Yunyao Yan, Yin Xie, Bin Qin, Kaicheng Yang, Yifei Shen, Yuanhan Zhang, Chunyuan Li, Shikun Feng, Changrui Chen, Huajie Tan, Ming Hu, Manyuan Zhang, Bo Li, Ziyong Feng, Ziwei Liu, Zongyuan Ge, Jiankang Deng,
- Abstract要約: OneVision-Encoderは、視覚構造を意味的な意味に圧縮することでビデオをエンコードする。
Codec-aligned, patch-level sparsityは基本的な原則であり、次世代のビジュアルジェネラリストのためのスケーラブルなエンジンとしてOV-Encoderを可能にする。
- 参考スコア(独自算出の注目度): 113.73007911004446
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hypothesis. Artificial general intelligence is, at its core, a compression problem. Effective compression demands resonance: deep learning scales best when its architecture aligns with the fundamental structure of the data. These are the fundamental principles. Yet, modern vision architectures have strayed from these truths: visual signals are highly redundant, while discriminative information, the surprise, is sparse. Current models process dense pixel grids uniformly, wasting vast compute on static background rather than focusing on the predictive residuals that define motion and meaning. We argue that to solve visual understanding, we must align our architectures with the information-theoretic principles of video, i.e., Codecs. Method. OneVision-Encoder encodes video by compressing predictive visual structure into semantic meaning. By adopting Codec Patchification, OV-Encoder abandons uniform computation to focus exclusively on the 3.1%-25% of regions rich in signal entropy. To unify spatial and temporal reasoning under irregular token layouts, OneVision-Encoder employs a shared 3D RoPE and is trained with a large-scale cluster discrimination objective over more than one million semantic concepts, jointly capturing object permanence and motion dynamics. Evidence. The results validate our core hypothesis: efficiency and accuracy are not a trade-off; they are positively correlated. When integrated into LLM, it consistently outperforms strong vision backbones such as Qwen3-ViT and SigLIP2 across 16 image, video, and document understanding benchmarks, despite using substantially fewer visual tokens and pretraining data. Notably, on video understanding tasks, OV-Encoder achieves an average improvement of 4.1% over Qwen3-ViT. Codec-aligned, patch-level sparsity is a foundational principle, enabling OV-Encoder as a scalable engine for next-generation visual generalists.
- Abstract(参考訳): 仮説。
人工知能は、その中核である圧縮問題である。
効果的な圧縮は共振を必要とする: ディープラーニングは、そのアーキテクチャがデータの基本構造と整合するときに最も良くスケールする。
これらは基本的な原則です。
視覚信号は非常に冗長であり、差別的な情報、驚きは少ない。
現在のモデルは、動きと意味を定義する予測残差ではなく、静的な背景に膨大な計算を無駄にしている。
我々は、視覚的理解を解決するためには、アーキテクチャをビデオの情報理論原理、すなわちコーデックスと整合させなければならないと論じる。
方法。
OneVision-Encoderは、予測的な視覚構造を意味のある意味に圧縮することで、ビデオをエンコードする。
Codec Patchificationを採用することで、OV-Encoderは均一な計算を放棄し、信号エントロピーに富む領域の3.1%-25%にのみフォーカスする。
不規則なトークン配置下での空間的および時間的推論を統一するために、OneVision-Encoderは共有の3D RoPEを使用し、100万以上のセマンティック概念に対して大規模なクラスタ識別目標をトレーニングし、オブジェクトの永続性と動きのダイナミクスを共同でキャプチャする。
証拠。
効率と正確性はトレードオフではなく、正の相関関係にあります。
LLMに統合されると、16のイメージ、ビデオ、文書理解ベンチマークでQwen3-ViTやSigLIP2のような強力なビジョンバックボーンよりも、はるかに少ないビジュアルトークンと事前学習データを使用しながら、一貫してパフォーマンスが向上する。
特に、ビデオ理解タスクでは、OV-EncoderはQwen3-ViTよりも平均4.1%向上している。
Codec-aligned, patch-level sparsityは基本的な原則であり、次世代のビジュアルジェネラリストのためのスケーラブルなエンジンとしてOV-Encoderを可能にする。
関連論文リスト
- Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Unveiling Encoder-Free Vision-Language Models [62.52803514667452]
既存の視覚言語モデル (VLM) は主に視覚的特徴を抽出するために視覚エンコーダに依存しており、視覚言語タスクには大きな言語モデル (LLM) が続く。
エンコーダベースモデルとエンコーダフリーモデルとのギャップを橋渡しし、純粋なVLMに対するシンプルで効果的なトレーニングレシピを示す。
EVEはエンコーダなしの視覚言語モデルで、効率的にトレーニングと転送ができる。
論文 参考訳(メタデータ) (2024-06-17T17:59:44Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。