論文の概要: Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Models
- arxiv url: http://arxiv.org/abs/2509.05925v1
- Date: Sun, 07 Sep 2025 04:49:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.782573
- Title: Compression Beyond Pixels: Semantic Compression with Multimodal Foundation Models
- Title(参考訳): ピクセルを越えた圧縮:マルチモーダルファンデーションモデルによるセマンティック圧縮
- Authors: Ruiqi Shen, Haotian Wu, Wenjing Zhang, Jiangjing Hu, Deniz Gunduz,
- Abstract要約: コントラッシブ言語画像事前学習(CLIP)モデルに基づく新しい意味圧縮手法を提案する。
提案手法は,ベンチマークデータセット間のセマンティックな整合性を維持し,平均ビットレートを1ピクセルあたり約2-3* 10(-3) ビットとする。
顕著なことに、極端な圧縮の下でも、提案手法は多様なデータ分布と下流タスクにまたがるゼロショットロバスト性を示す。
- 参考スコア(独自算出の注目度): 3.63996665798445
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep learning-based methods for lossy image compression achieve competitive rate-distortion performance through extensive end-to-end training and advanced architectures. However, emerging applications increasingly prioritize semantic preservation over pixel-level reconstruction and demand robust performance across diverse data distributions and downstream tasks. These challenges call for advanced semantic compression paradigms. Motivated by the zero-shot and representational capabilities of multimodal foundation models, we propose a novel semantic compression method based on the contrastive language-image pretraining (CLIP) model. Rather than compressing images for reconstruction, we propose compressing the CLIP feature embeddings into minimal bits while preserving semantic information across different tasks. Experiments show that our method maintains semantic integrity across benchmark datasets, achieving an average bit rate of approximately 2-3* 10(-3) bits per pixel. This is less than 5% of the bitrate required by mainstream image compression approaches for comparable performance. Remarkably, even under extreme compression, the proposed approach exhibits zero-shot robustness across diverse data distributions and downstream tasks.
- Abstract(参考訳): 近年の深層学習に基づく画像圧縮手法は、広範囲なエンドツーエンドトレーニングと高度なアーキテクチャを通じて、競合速度歪み性能を実現する。
しかし、新興アプリケーションでは、ピクセルレベルの再構築よりもセマンティックな保存を優先し、多様なデータ分散や下流タスクに対して堅牢なパフォーマンスを要求している。
これらの課題は、高度なセマンティック圧縮パラダイムを必要とする。
マルチモーダル基礎モデルのゼロショットと表現能力に触発され,コントラッシブ言語画像事前学習(CLIP)モデルに基づく新しい意味圧縮手法を提案する。
再構成のために画像を圧縮するのではなく,複数のタスクにまたがる意味情報を保存しながら,最小ビットにCLIP機能を埋め込む方法を提案する。
実験の結果,提案手法はベンチマークデータセット間のセマンティックな整合性を保ち,平均ビットレートは1ピクセルあたり約2-3* 10(-3) であることがわかった。
これは、同等のパフォーマンスのために主流の画像圧縮アプローチが必要とするビットレートの5%未満である。
顕著なことに、極端な圧縮の下でも、提案手法は多様なデータ分布と下流タスクにまたがるゼロショットロバスト性を示す。
関連論文リスト
- Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Extreme Image Compression using Fine-tuned VQGANs [43.43014096929809]
本稿ではベクトル量子化(VQ)に基づく生成モデルを画像圧縮領域に導入する。
VQGANモデルによって学習されたコードブックは、強い表現能力をもたらす。
提案したフレームワークは、知覚的品質指向のメトリクスで最先端のコーデックより優れている。
論文 参考訳(メタデータ) (2023-07-17T06:14:19Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Variable-Rate Deep Image Compression through Spatially-Adaptive Feature
Transform [58.60004238261117]
空間特徴変換(SFT arXiv:1804.02815)に基づく多目的深部画像圧縮ネットワークを提案する。
本モデルは,任意の画素単位の品質マップによって制御される単一モデルを用いて,幅広い圧縮速度をカバーしている。
提案するフレームワークにより,様々なタスクに対してタスク対応の画像圧縮を行うことができる。
論文 参考訳(メタデータ) (2021-08-21T17:30:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。