論文の概要: ZeroSense:How Vision matters in Long Context Compression
- arxiv url: http://arxiv.org/abs/2603.11846v1
- Date: Thu, 12 Mar 2026 12:11:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.057323
- Title: ZeroSense:How Vision matters in Long Context Compression
- Title(参考訳): ZeroSense:Long Context Compressionにおけるビジョンの意義
- Authors: Yonghan Gao, Zehong Chen, Lijian Xu, Jingzhi Chen, Jingwei Guan, Xingyu Zeng,
- Abstract要約: VTCの品質を忠実に評価するMLLMの能力を分離する新たな評価フレームワークを導入する。
文脈依存をなくすことで,評価結果がVTCの品質を純粋に反映していることが保証される。
- 参考スコア(独自算出の注目度): 5.942515516844501
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent visual-text compression (VTC) methods, typified by DeepSeek-OCR, report impressive high token compression ratios for long-context modeling tasks by leveraging text-to-image rendering. However, existing evaluation protocols heavily rely on downstream task performance. Such evaluation metrics fail to accurately measure text preservation due to the strong inherent linguistic priors of Multimodal Large Language Models (MLLMs). In this work, we introduce a new evaluation framework that decouples MLLMs' capabilities to faithfully assess VTC quality. Within this framework, we further introduce the ZeroSense Benchmark to ensure low semantic correlation of testing samples. By eliminating contextual dependencies, our benchmark guarantees that the evaluation results are purely reflective of VTC quality, unaffected by the semantic inference capabilities of downstream models. Extensive experiments across multiple datasets demonstrate that VTC quality and downstream task accuracy diverge significantly, highlighting the necessity of our decoupled evaluation framework.
- Abstract(参考訳): 近年,DeepSeek-OCRに代表されるビジュアルテキスト圧縮(VTC)法では,テキスト・ツー・イメージ・レンダリングを利用した長文モデリングタスクにおいて,高いトークン圧縮比が顕著に報告されている。
しかし、既存の評価プロトコルはダウンストリームタスクのパフォーマンスに大きく依存している。
このような評価基準は,MLLM(Multimodal Large Language Models)の強い言語的前提により,テキストの保存を正確に測定することができない。
本稿では,VTC品質を忠実に評価するMLLMの能力を分離した新たな評価フレームワークを提案する。
このフレームワークでは、テストサンプルのセマンティックな相関を低くするため、ZeroSense Benchmarkをさらに導入する。
文脈依存をなくすことにより,評価結果がVTCの品質を純粋に反映していることが保証され,下流モデルのセマンティック推論能力の影響を受けない。
複数のデータセットにわたる大規模な実験により、VTCの品質と下流タスクの精度が著しく変化していることが示され、分離された評価フレームワークの必要性が強調された。
関連論文リスト
- Mind the Way You Select Negative Texts: Pursuing the Distance Consistency in OOD Detection with VLMs [80.03370593724422]
Out-of-Distribution (OOD) は未知のクラスからサンプルを識別する。
現在の手法では、否定的なテキストとIDラベルを比較するなど、OOD検出中にモード内距離を組み込むことが多い。
テキストおよび視覚的視点から一貫したモーダル距離拡張を体系的に利用するフレームワークであるInterNegを提案する。
論文 参考訳(メタデータ) (2026-03-03T05:44:47Z) - VTCBench: Can Vision-Language Models Understand Long Context with Vision-Text Compression? [43.88970987769102]
視覚テキスト圧縮(VTC)は、長いテキストを密度の高い2次元の視覚表現に変換する。
この高情報密度が視覚言語モデル(VLM)のコア長文能力に与える影響は未検討のままである。
この研究は、VTCの深い理解を提供し、より効率的でスケーラブルなVLMを設計するための基盤となる。
論文 参考訳(メタデータ) (2025-12-17T17:58:35Z) - Are We Using the Right Benchmark: An Evaluation Framework for Visual Token Compression Methods [54.4711434793961]
単純な画像ダウンサンプリングは、複数の広く使用されているベンチマークにおいて、多くの高度な圧縮方法より一貫して優れていることを示す。
これらの結果に触発され,既存のベンチマークを識別するデータフィルタリング機構を組み込んだ評価フレームワークであるVTC-Benchを導入する。
論文 参考訳(メタデータ) (2025-10-08T15:44:28Z) - Visual CoT Makes VLMs Smarter but More Fragile [79.32638667101817]
チェーン・オブ・ソート(CoT)技術は視覚言語モデル(VLM)における推論を著しく向上させた
Visual CoTは、興味のある領域のトリミングや注釈付けなどの明示的なビジュアル編集を推論プロセスに統合する。
視覚摂動下での視覚的CoTロバスト性の最初の体系的評価について述べる。
論文 参考訳(メタデータ) (2025-09-28T10:19:59Z) - Evaluating Robustness of Vision-Language Models Under Noisy Conditions [0.0176290054713643]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったマルチモーダルタスクにおいて、例外的な成功を収めている。
制御摂動下での複数の最先端VLMの性能を評価するための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-15T22:31:21Z) - Compressed Feature Quality Assessment: Dataset and Baselines [89.62929964441962]
圧縮された特徴のセマンティック忠実度を評価するための最初のベンチマークデータセットを提案する。
MSE、コサイン類似性、CKA(Centered Kernel Alignment)という3つの広く使われているメトリクスを、意味的劣化を捉える能力の観点から体系的に評価する。
この研究は、基礎的なベンチマークを確立し、コミュニティがCFQAを探索するための重要なリソースを提供することによって、この分野を前進させます。
論文 参考訳(メタデータ) (2025-06-09T04:16:39Z) - Benchmark Granularity and Model Robustness for Image-Text Retrieval [44.045767657945895]
データセットの粒度とクエリの摂動が検索性能とロバスト性にどのように影響するかを示す。
よりリッチなキャプションは、特にテキスト・ツー・イメージタスクにおいて、検索を継続的に強化することを示す。
本研究は, モデル頑健性の変化とキャプション粒度と感度摂動のデータセット依存的関係に着目した。
論文 参考訳(メタデータ) (2024-07-21T18:08:44Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Reduced-Reference Quality Assessment of Point Clouds via
Content-Oriented Saliency Projection [17.983188216548005]
多くの高密度な3Dポイントクラウドは、従来の画像やビデオではなく、視覚オブジェクトを表現するために利用されてきた。
本稿では, 点雲に対する新しい, 効率的な還元参照品質指標を提案する。
論文 参考訳(メタデータ) (2023-01-18T18:00:29Z) - Evaluating and Improving Factuality in Multimodal Abstractive
Summarization [91.46015013816083]
そこで我々は,CLIPBERTScoreを提案する。
ゼロショットにおけるこの2つの指標の単純な組み合わせは、文書要約のための既存の事実度指標よりも高い相関性が得られることを示す。
本分析は,CLIPBERTScoreとそのコンポーネントの信頼性と高い相関性を示す。
論文 参考訳(メタデータ) (2022-11-04T16:50:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。