論文の概要: Prompt-Guided Prefiltering for VLM Image Compression
- arxiv url: http://arxiv.org/abs/2604.00314v1
- Date: Tue, 31 Mar 2026 23:27:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.764124
- Title: Prompt-Guided Prefiltering for VLM Image Compression
- Title(参考訳): VLM画像圧縮のためのPrompt-Guided Prefiltering
- Authors: Bardia Azizian, Ivan V. Bajic,
- Abstract要約: テキストプロンプトに最も関係のある画像領域を識別するための,軽量でプラグアンドプレイ,プロンプト誘導型プリフィルタモジュールを提案する。
いくつかのVQAベンチマーク実験から,本手法はタスクの精度を維持しつつ,平均25~50%の削減を実現していることがわかった。
- 参考スコア(独自算出の注目度): 17.40790836107761
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid progress of large Vision-Language Models (VLMs) has enabled a wide range of applications, such as image understanding and Visual Question Answering (VQA). Query images are often uploaded to the cloud, where VLMs are typically hosted, hence efficient image compression becomes crucial. However, traditional human-centric codecs are suboptimal in this setting because they preserve many task-irrelevant details. Existing Image Coding for Machines (ICM) methods also fall short, as they assume a fixed set of downstream tasks and cannot adapt to prompt-driven VLMs with an open-ended variety of objectives. We propose a lightweight, plug-and-play, prompt-guided prefiltering module to identify image regions most relevant to the text prompt, and consequently to the downstream task. The module preserves important details while smoothing out less relevant areas to improve compression efficiency. It is codec-agnostic and can be applied before conventional and learned encoders. Experiments on several VQA benchmarks show that our approach achieves a 25-50% average bitrate reduction while maintaining the same task accuracy. Our source code is available at https://github.com/bardia-az/pgp-vlm-compression.
- Abstract(参考訳): 視覚言語モデル(VLM)の急速な進歩により、画像理解や視覚質問回答(VQA)など、幅広い応用が可能になった。
クエリイメージはクラウドにアップロードされることが多く、VLMは一般的にホストされているため、効率的な画像圧縮が重要になる。
しかし、従来の人間中心のコーデックは、多くのタスク非関連の詳細を保存しているため、この設定では最適ではない。
既存の画像符号化(ICM)手法も、ダウンストリームタスクの固定セットを前提としており、オープンな目的を持ったプロンプト駆動型VLMに適応できないため、不足している。
本稿では,テキストプロンプトに最も関係のある画像領域を識別し,従って下流タスクに適応する,ライトウェイトでプラグアンドプレイ,プロンプト誘導型プリフィルタモジュールを提案する。
このモジュールは圧縮効率を向上させるために、あまり関係のない領域を滑らかにしながら、重要な詳細を保存している。
これはコーデック非依存であり、従来の学習エンコーダよりも前に適用することができる。
いくつかのVQAベンチマーク実験により,同じタスク精度を維持しつつ,平均ビットレートを25~50%削減できることがわかった。
ソースコードはhttps://github.com/bardia-az/pgp-vlm-compression.comで公開されています。
関連論文リスト
- CoPE-VideoLM: Codec Primitives For Efficient Video Language Models [56.76440182038839]
ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。
現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。
多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
論文 参考訳(メタデータ) (2026-02-13T18:57:31Z) - Benchmarking and Enhancing VLM for Compressed Image Understanding [52.98037879935058]
VLM(Vision-Language Models)は、主に高ビットレート圧縮画像の消化と理解を行う。
低ビットレート圧縮画像の解釈能力はまだ研究されていない。
圧縮画像に対するVLMの能力を評価するための,最初の総合的なベンチマークを導入する。
論文 参考訳(メタデータ) (2025-12-24T02:59:01Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - Tell Codec What Worth Compressing: Semantically Disentangled Image Coding for Machine with LMMs [47.7670923159071]
我々は,LMM(Large Multimodal Models)の常識を巧みに活用して,「機械のためのインテリジェントコーディング」を実現するための新しい画像圧縮パラダイムを提案する。
textitSemantically textitDisentangled textitCompression'' の textitSDComp' メソッドをダブし、様々な視覚タスクの最先端コーデックと比較する。
論文 参考訳(メタデータ) (2024-08-16T07:23:18Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Preprocessing Enhanced Image Compression for Machine Vision [14.895698385236937]
本稿では,マシンビジョンタスクのための前処理による画像圧縮手法を提案する。
私たちのフレームワークは従来の非微分コーデックの上に構築されています。
実験の結果,提案手法は,約20%の節約により,ダウンストリームマシンビジョンタスクのコーディングと性能のトレードオフを向上することが示された。
論文 参考訳(メタデータ) (2022-06-12T03:36:38Z) - Microdosing: Knowledge Distillation for GAN based Compression [18.140328230701233]
そこで本研究では,知識蒸留を利用した画像デコーダの有効化について,元のパラメータ数のごく一部で示す。
これにより、モデルサイズを20倍に削減し、デコード時間の50%削減を実現できます。
論文 参考訳(メタデータ) (2022-01-07T14:27:16Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。