論文の概要: SLIM: Semantic-based Low-bitrate Image compression for Machines by leveraging diffusion
- arxiv url: http://arxiv.org/abs/2512.18200v1
- Date: Sat, 20 Dec 2025 03:48:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-23 18:54:32.230523
- Title: SLIM: Semantic-based Low-bitrate Image compression for Machines by leveraging diffusion
- Title(参考訳): SLIM:拡散を利用した機械のセマンティックベース低ビットレート画像圧縮
- Authors: Hyeonjin Lee, Jun-Hyuk Kim, Jong-Seok Lee,
- Abstract要約: SLIMと呼ばれる拡散を利用したセマンティックベースの低ビットレート画像圧縮を提案する。
SLIMは, 従来の画像圧縮モデルに比べて, 画素当たりの同一ビットの分類精度が高い。
- 参考スコア(独自算出の注目度): 25.438410354399053
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, the demand of image compression models for machine vision has increased dramatically. However, the training frameworks of image compression still focus on the vision of human, maintaining the excessive perceptual details, thus have limitations in optimally reducing the bits per pixel in the case of performing machine vision tasks. In this paper, we propose Semantic-based Low-bitrate Image compression for Machines by leveraging diffusion, termed SLIM. This is a new effective training framework of image compression for machine vision, using a pretrained latent diffusion model.The compressor model of our method focuses only on the Region-of-Interest (RoI) areas for machine vision in the image latent, to compress it compactly. Then the pretrained Unet model enhances the decompressed latent, utilizing a RoI-focused text caption which containing semantic information of the image. Therefore, SLIM is able to focus on RoI areas of the image without any guide mask at the inference stage, achieving low bitrate when compressing. And SLIM is also able to enhance a decompressed latent by denoising steps, so the final reconstructed image from the enhanced latent can be optimized for the machine vision task while still containing perceptual details for human vision. Experimental results show that SLIM achieves a higher classification accuracy in the same bits per pixel condition, compared to conventional image compression models for machines.Code will be released upon acceptance.
- Abstract(参考訳): 近年,機械ビジョンのための画像圧縮モデルの需要が急増している。
しかし、画像圧縮のトレーニングフレームワークは依然として人間のビジョンに焦点をあてており、過度の知覚的詳細を維持しているため、マシンビジョンタスクを実行する場合、ピクセル当たりのビット数を最適に削減する制限がある。
本稿では,SLIMと呼ばれる拡散を利用したセマンティックに基づく機械用低ビットレート画像圧縮を提案する。
本手法の圧縮モデルは,機械視の領域間(RoI)領域にのみ焦点をあてて圧縮する。
そして、予め訓練されたUnetモデルは、画像の意味情報を含むRoI中心のテキストキャプションを利用して、圧縮された潜水器を強化する。
したがって、SLIMは、推論段階ではガイドマスクを使わずに画像のRoI領域に集中することができ、圧縮時に低ビットレートを実現することができる。
また, SLIMは段差を減らして減圧潜伏を増強できるので, 拡張潜伏からの最終的な再構成画像は, 人間の視覚に対する知覚的詳細をいまだに含んでいながら, マシンビジョンタスクに最適化することができる。
実験結果から,SLIMは従来の画像圧縮モデルに比べて,画素当たりの同一ビットの分類精度が高いことが判明した。
関連論文リスト
- SANR: Scene-Aware Neural Representation for Light Field Image Compression with Rate-Distortion Optimization [54.184486302645716]
エンドツーエンドの速度歪みを最適化した光場画像圧縮のためのScene-Aware Neural Representationフレームワークを提案する。
シーン認識のために,SANRは階層的なシーンモデリングブロックを導入している。
実験の結果,SANRはHEVCに対する65.62%のBD節減率で,変形率に関する最先端技術よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-10-17T16:00:43Z) - COLI: A Hierarchical Efficient Compressor for Large Images [18.697445453003983]
Inlicit Neural Representations (INR)は、空間座標から個々の画像のピクセル強度への連続的なマッピングを学習することで、有望な代替手段を提供する。
我々は、NeRV(Neural Representations for Videos)を利用した新しいフレームワークであるCOLI(Compressor for Large Images)を紹介する。
また,COLIは,最大4倍のNRVトレーニングをしながら,PSNRとSSIMの競合や優れた測定値を,ピクセル当たりのビット数(bpp)で連続的に達成することを示した。
論文 参考訳(メタデータ) (2025-07-15T16:07:07Z) - Towards Facial Image Compression with Consistency Preserving Diffusion Prior [41.29201202196887]
安定拡散前の顔画像圧縮(FaSDiff)を提案する。
FaSDiffは、エンドツーエンドのフレームワークに高周波感度圧縮機を使用し、微細な画像の詳細をキャプチャし、堅牢な視覚的プロンプトを生成する。
低周波の顔のセマンティクスを分解し、視覚的プロンプトとともに拡散を安定的に調節するハイブリッド低周波拡張モジュールを提案する。
論文 参考訳(メタデータ) (2025-05-09T08:13:51Z) - Hierarchical Semantic Compression for Consistent Image Semantic Restoration [62.97519327310638]
生成モデルから固有意味空間内で純粋に機能する新しい階層意味圧縮(HSC)フレームワークを提案する。
実験の結果,提案したHSCフレームワークは人間の視力に対する主観的品質と一貫性に関する最先端の性能を実現することが示された。
論文 参考訳(メタデータ) (2025-02-24T03:20:44Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Image Compression and Decompression Framework Based on Latent Diffusion
Model for Breast Mammography [0.0]
本研究では,潜在拡散モデル(LDM)を用いた医用画像の圧縮・圧縮のための新しい枠組みを提案する。
LDMは, 拡散確率モデル (DDPM) の進歩を表現し, 優れた画質が得られる可能性が示唆された。
医用画像データを用いた画像アップスケーリングにおけるLCMとTorchvisionの応用の可能性について検討した。
論文 参考訳(メタデータ) (2023-10-08T22:08:59Z) - Cross Modal Compression: Towards Human-comprehensible Semantic
Compression [73.89616626853913]
クロスモーダル圧縮は、視覚データのためのセマンティック圧縮フレームワークである。
提案したCMCは,超高圧縮比で再現性の向上が期待できることを示す。
論文 参考訳(メタデータ) (2022-09-06T15:31:11Z) - Learned Image Compression for Machine Perception [17.40776913809306]
人間の知覚と機械知覚の両方に適した圧縮フォーマットを生成するフレームワークを開発する。
コアビジョンタスクの圧縮と性能を同時に最適化する表現が学習可能であることを示す。
論文 参考訳(メタデータ) (2021-11-03T14:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。