論文の概要: VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
- arxiv url: http://arxiv.org/abs/2512.15649v1
- Date: Wed, 17 Dec 2025 17:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.090108
- Title: VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression?
- Title(参考訳): VTCBench:視覚テキスト圧縮による長期文脈の理解は可能か?
- Authors: Hongbo Zhao, Meng Wang, Fei Zhu, Wenzhuo Liu, Bolin Ni, Fanhu Zeng, Gaofeng Meng, Zhaoxiang Zhang,
- Abstract要約: 視覚テキスト圧縮(VTC)は、長いテキストを密度の高い2次元の視覚表現に変換する。
この高情報密度が視覚言語モデル(VLM)のコア長文能力に与える影響は未検討のままである。
この研究は、VTCの深い理解を提供し、より効率的でスケーラブルなVLMを設計するための基盤となる。
- 参考スコア(独自算出の注目度): 43.88970987769102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The computational and memory overheads associated with expanding the context window of LLMs severely limit their scalability. A noteworthy solution is vision-text compression (VTC), exemplified by frameworks like DeepSeek-OCR and Glyph, which convert long texts into dense 2D visual representations, thereby achieving token compression ratios of 3x-20x. However, the impact of this high information density on the core long-context capabilities of vision-language models (VLMs) remains under-investigated. To address this gap, we introduce the first benchmark for VTC and systematically assess the performance of VLMs across three long-context understanding settings: VTC-Retrieval, which evaluates the model's ability to retrieve and aggregate information; VTC-Reasoning, which requires models to infer latent associations to locate facts with minimal lexical overlap; and VTC-Memory, which measures comprehensive question answering within long-term dialogue memory. Furthermore, we establish the VTCBench-Wild to simulate diverse input scenarios.We comprehensively evaluate leading open-source and proprietary models on our benchmarks. The results indicate that, despite being able to decode textual information (e.g., OCR) well, most VLMs exhibit a surprisingly poor long-context understanding ability with VTC-compressed information, failing to capture long associations or dependencies in the context.This study provides a deep understanding of VTC and serves as a foundation for designing more efficient and scalable VLMs.
- Abstract(参考訳): LLMのコンテキストウィンドウの拡張に伴う計算とメモリのオーバーヘッドは、スケーラビリティを著しく制限します。
注目すべき解決策は視覚テキスト圧縮(VTC)であり、DeepSeek-OCRやGlyphのようなフレームワークによって例示されている。
しかし、この高情報密度が視覚言語モデル(VLM)のコア長文能力に与える影響は未解明のままである。
このギャップに対処するために、VTCの最初のベンチマークを導入し、3つの長文理解設定におけるVLMの性能を体系的に評価する: VTC-Retrieval; モデルが情報を検索・集約する能力を評価するVTC-Retrieval; 遅延関係を最小の語彙重なりで推定するモデルを必要とするVTC-Reasoning; 長期対話メモリにおける包括的質問応答を測定するVTC-Memory。
さらに,様々な入力シナリオをシミュレートするVTCBench-Wildを構築し,ベンチマーク上でのオープンソースおよびプロプライエタリモデルについて総合的に評価する。
その結果、テキスト情報(例えばOCR)を復号化できるにもかかわらず、ほとんどのVLMは、VTC圧縮情報による驚くほど貧弱な長文理解能力を示し、コンテキスト内の長い関連や依存関係を捉えることができず、VTCの深い理解を提供し、より効率的でスケーラブルなVLMを設計するための基盤となることを示唆している。
関連論文リスト
- Chain-of-Visual-Thought: Teaching VLMs to See and Think Better with Continuous Visual Tokens [54.18057944158818]
Chain-of-Visual-Thought (COVT)は、ビジョンランゲージモデル(VLM)が連続的な視覚トークンを通じて推論できるようにするフレームワークである。
約20枚のトークンからなる小さな予算の中で、COVTは軽量ビジョンの専門家から知識を抽出する。
トレーニング中、COVTを持つVLMは視覚トークンを自動回帰予測し、密集した監視信号を再構築する。
論文 参考訳(メタデータ) (2025-11-24T18:55:19Z) - Response Wide Shut? Surprising Observations in Basic Vision Language Model Capabilities [54.94982467313341]
視覚言語モデル(VLM)は、様々な複雑なコンピュータビジョン問題に対処するための汎用ツールとして登場した。
我々は、設計のどのコンポーネントが欠落しているかを調査する一連のテストを構築することで、基本的な視覚的タスクにおけるSoTA VLMの限界を理解することにしました。
論文 参考訳(メタデータ) (2025-07-10T15:26:41Z) - LVC: A Lightweight Compression Framework for Enhancing VLMs in Long Video Understanding [29.719450799231705]
VLM(Vision-Language Models)は、多フレーム入力によってフレームレベルの理解能力を得る。
ビデオ大言語モデル(Video Large Language Models, Video-LLMs)は、視覚機能内の時間的関係をキャプチャするが、高品質のビデオテキストデータセットの不足によって制限される。
本稿では,クエリ・アテンション・ビデオ圧縮機構を備えた新しい手法である軽量ビデオ圧縮(LVC)を提案する。
論文 参考訳(メタデータ) (2025-04-09T12:51:10Z) - Keyframe-oriented Vision Token Pruning: Enhancing Efficiency of Large Vision Language Models on Long-Form Video Processing [30.94114120434789]
KVTP(Keyframe-oriented Vision Token MME)を提案する。
KVTPは、冗長な計算を著しく削減しつつ、重要なコンテキスト情報を効果的に保持する。
論文 参考訳(メタデータ) (2025-03-13T17:47:52Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z) - Perceiver-VL: Efficient Vision-and-Language Modeling with Iterative
Latent Attention [100.81495948184649]
本稿では,長いビデオやテキストなどの高次元マルチモーダル入力を効率的に処理する視覚・言語フレームワークPerceiver-VLを提案する。
我々のフレームワークは、多くの最先端のトランスフォーマーベースモデルで使用される自己注意の二次的な複雑さとは対照的に、線形複雑性でスケールする。
論文 参考訳(メタデータ) (2022-11-21T18:22:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。