論文の概要: How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs
- arxiv url: http://arxiv.org/abs/2602.02539v1
- Date: Wed, 28 Jan 2026 15:21:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:14.915671
- Title: How Much Information Can a Vision Token Hold? A Scaling Law for Recognition Limits in VLMs
- Title(参考訳): 視覚が保持できる情報量 : VLMにおける認識限界のスケーリング法
- Authors: Shuxin Zhuang, Zi Liang, Runsheng Yu, Hongzong Li, Rong Feng, Shiqin Tang, Youzhi Zhang,
- Abstract要約: 最近の視覚中心のアプローチは、長いコンテキストモデリングにおいて大きな進歩を遂げている。
これらのモデルは、レンダリングされたテキストを連続した視覚トークンにエンコードし、認識精度を犠牲にすることなく高い圧縮率を達成する。
しかし、視覚エンコーダを有限表現能力の損失チャネルと見なすと、基本的な疑問が持ち上がる。
- 参考スコア(独自算出の注目度): 14.40434528827243
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent vision-centric approaches have made significant strides in long-context modeling. Represented by DeepSeek-OCR, these models encode rendered text into continuous vision tokens, achieving high compression rates without sacrificing recognition precision. However, viewing the vision encoder as a lossy channel with finite representational capacity raises a fundamental question: what is the information upper bound of visual tokens? To investigate this limit, we conduct controlled stress tests by progressively increasing the information quantity (character count) within an image. We observe a distinct phase-transition phenomenon characterized by three regimes: a near-perfect Stable Phase, an Instability Phase marked by increased error variance, and a total Collapse Phase. We analyze the mechanical origins of these transitions and identify key factors. Furthermore, we formulate a probabilistic scaling law that unifies average vision token load and visual density into a latent difficulty metric. Extensive experiments across various Vision-Language Models demonstrate the universality of this scaling law, providing critical empirical guidance for optimizing the efficiency-accuracy trade-off in visual context compression.
- Abstract(参考訳): 最近の視覚中心のアプローチは、長いコンテキストモデリングにおいて大きな進歩を遂げている。
DeepSeek-OCRによって表現されたこれらのモデルは、レンダリングされたテキストを連続的な視覚トークンにエンコードし、認識精度を犠牲にすることなく高い圧縮率を達成する。
しかし、視覚エンコーダを有限表現能力の損失チャネルと見なすと、基本的な疑問が持ち上がる。
この限界を調べるために、画像内の情報量(文字数)を徐々に増加させ、制御されたストレステストを行う。
本研究では, ほぼ完全な安定相, 不安定性相, 誤差分散の増大を特徴とする相転移現象, 総崩壊相の3つを特徴とする相転移現象を観察した。
これらの遷移の機械的起源を分析し、重要な要因を同定する。
さらに、平均的な視覚トークン負荷と視覚密度を潜在難易度に統一する確率的スケーリング法則を定式化する。
様々なビジョン・ランゲージ・モデルにわたる大規模な実験は、このスケーリング法則の普遍性を実証し、視覚的文脈圧縮における効率・正確性トレードオフを最適化するための重要な実証的なガイダンスを提供する。
関連論文リスト
- AdaTok: Adaptive Token Compression with Object-Aware Representations for Efficient Multimodal LLMs [29.68162972167947]
適応トークン圧縮のためのオブジェクトレベルのトークンマージ戦略を提案する。
当社のアプローチでは,バニラモデルのパフォーマンスの96%を達成しながら,トークンの10%しか使用していません。
論文 参考訳(メタデータ) (2025-11-18T06:12:15Z) - Unleashing Perception-Time Scaling to Multimodal Reasoning Models [60.578179197783754]
推論時間スケーリングの最近の進歩は、LVLM(Large Vision-Language Models)の推論能力を大幅に向上させた。
この成功に触発されて、同様の戦略がマルチモーダル推論に適用されたが、視覚的知覚への影響は未だ不明である。
本稿では,トークンに富む知覚を促進する新しいパラダイムである知覚時間スケーリング(PTS)を提案し,複雑な知覚問題を中間的抽出可能なサブプロブレムに分解する。
論文 参考訳(メタデータ) (2025-10-10T03:17:52Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - Grounding Language with Vision: A Conditional Mutual Information Calibrated Decoding Strategy for Reducing Hallucinations in LVLMs [51.93737995405164]
LVLM(Large Vision-Language Models)は幻覚の影響を受けやすいモデルである。
本稿では,条件付きポイントワイド・ミューチュアル・インフォメーション(C-PMI)キャリブレーション・デコーディング・ストラテジーを導入する。
提案手法は,復号効率を保ちながら,LVLMの幻覚を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-05-26T08:36:10Z) - "Principal Components" Enable A New Language of Images [79.45806370905775]
証明可能なPCAのような構造を潜在トークン空間に組み込む新しい視覚トークン化フレームワークを導入する。
提案手法は、最先端の再構築性能を実現し、人間の視覚システムとの整合性を向上する。
論文 参考訳(メタデータ) (2025-03-11T17:59:41Z) - From Uncertainty to Trust: Enhancing Reliability in Vision-Language Models with Uncertainty-Guided Dropout Decoding [6.115580421973011]
大規模視覚言語モデル(LVLM)は多モーダルタスクにおいて顕著な能力を示すが、視覚入力を誤解釈する傾向があり、幻覚や信頼できない出力をもたらすことが多い。
本稿では,視覚的トークンの不確実性を定量化し,不確実なトークンを選択的にマスクしてデコードを改善する新しい推論時間手法であるDropout Decodingを提案する。
CHAIR, THRONE, MMBenchなどのベンチマークによる評価では、Dropout Decodingはオブジェクト幻覚(OH)を大幅に低減し、LVLM出力の信頼性と品質を向上させる。
論文 参考訳(メタデータ) (2024-12-09T13:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。