論文の概要: Benchmarking and Enhancing VLM for Compressed Image Understanding
- arxiv url: http://arxiv.org/abs/2512.20901v1
- Date: Wed, 24 Dec 2025 02:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-25 19:43:21.660215
- Title: Benchmarking and Enhancing VLM for Compressed Image Understanding
- Title(参考訳): 圧縮画像理解のためのVLMのベンチマークと強化
- Authors: Zifu Zhang, Tongda Xu, Siqi Li, Shengxi Li, Yue Zhang, Mai Xu, Yan Wang,
- Abstract要約: VLM(Vision-Language Models)は、主に高ビットレート圧縮画像の消化と理解を行う。
低ビットレート圧縮画像の解釈能力はまだ研究されていない。
圧縮画像に対するVLMの能力を評価するための,最初の総合的なベンチマークを導入する。
- 参考スコア(独自算出の注目度): 52.98037879935058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of Vision-Language Models (VLMs) and the growing demand for their applications, efficient compression of the image inputs has become increasingly important. Existing VLMs predominantly digest and understand high-bitrate compressed images, while their ability to interpret low-bitrate compressed images has yet to be explored by far. In this paper, we introduce the first comprehensive benchmark to evaluate the ability of VLM against compressed images, varying existing widely used image codecs and diverse set of tasks, encompassing over one million compressed images in our benchmark. Next, we analyse the source of performance gap, by categorising the gap from a) the information loss during compression and b) generalisation failure of VLM. We visualize these gaps with concrete examples and identify that for compressed images, only the generalization gap can be mitigated. Finally, we propose a universal VLM adaptor to enhance model performance on images compressed by existing codecs. Consequently, we demonstrate that a single adaptor can improve VLM performance across images with varying codecs and bitrates by 10%-30%. We believe that our benchmark and enhancement method provide valuable insights and contribute toward bridging the gap between VLMs and compressed images.
- Abstract(参考訳): VLM(Vision-Language Models)の急速な発展と,そのアプリケーションへの需要の増加に伴い,画像入力の効率的な圧縮がますます重要になっている。
既存のVLMは、主に高ビットレート圧縮された画像を消化し、理解しているが、低ビットレート圧縮された画像を解釈する能力はまだ研究されていない。
本稿では、圧縮画像に対するVLMの能力を評価するための最初の総合的ベンチマークについて紹介する。
次に、パフォーマンスギャップの源泉を分析し、そのギャップを分類する。
a) 圧縮中の情報損失及び情報損失
b) VLMの一般化失敗
これらのギャップを具体例で可視化し、圧縮画像の場合、一般化ギャップのみを緩和できることを示す。
最後に,既存のコーデックで圧縮された画像のモデル性能を向上させる汎用VLMアダプタを提案する。
その結果,1つのアダプタが,コーデックやビットレートの異なる画像間でのVLM性能を10%~30%向上できることが実証された。
我々は,VLMと圧縮画像のギャップを埋める上で,ベンチマークとエンハンスメント手法が有意義な洞察を与え,貢献すると考えている。
関連論文リスト
- Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - Large Language Model for Lossless Image Compression with Visual Prompts [26.132381529841815]
本稿では,大規模言語モデルに視覚的プロンプトを組み込んだ,ロスレス画像圧縮のための新しいパラダイムを提案する。
複数のベンチマークデータセットの実験により,本手法が最先端の圧縮性能を実現することを示す。
我々のアプローチは、医用画像やスクリーンコンテンツ画像など他の領域の画像にも容易に拡張でき、優れたパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2025-02-22T09:36:03Z) - UniMIC: Towards Universal Multi-modality Perceptual Image Compression [21.370591256689885]
汎用多モード画像圧縮フレームワークUniMICを提案する。
UniMICは、複数の画像コーデックに対するRDP最適化を統一することを目的としている。
論文 参考訳(メタデータ) (2024-12-06T10:08:55Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Progressive Learning with Visual Prompt Tuning for Variable-Rate Image
Compression [60.689646881479064]
本稿では,変圧器を用いた可変レート画像圧縮のためのプログレッシブラーニングパラダイムを提案する。
視覚的プロンプトチューニングにインスパイアされた私たちは,エンコーダ側とデコーダ側でそれぞれ入力画像と隠蔽特徴のプロンプトを抽出するためにLPMを使用する。
提案モデルでは, 速度歪み特性の観点から現行の可変画像法よりも優れ, スクラッチから訓練した最先端の固定画像圧縮法にアプローチする。
論文 参考訳(メタデータ) (2023-11-23T08:29:32Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。