論文の概要: Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder
- arxiv url: http://arxiv.org/abs/2512.12229v1
- Date: Sat, 13 Dec 2025 07:59:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.176025
- Title: Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder
- Title(参考訳): 浅エンコーダを用いた極低ビットレート知覚画像圧縮
- Authors: Tianyu Zhang, Dong Liu, Chang Wen Chen,
- Abstract要約: 本稿では, シンプルさとデコード品質を同時に符号化する非対称なエクストリーム画像圧縮(AEIC)フレームワークを提案する。
AEICは中程度のあるいは浅いエンコーダネットワークを使用し、一方の拡散デコーダを利用して高忠実性と高現実性を維持する。
AEICは、Ultra-lowsでのレート歪み知覚性能の既存の手法よりも優れているだけでなく、1080Pの入力画像上で35.8FPSの符号化効率も優れていることを示した。
- 参考スコア(独自算出の注目度): 41.0853762937392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ultra-low bitrate image compression (below 0.05 bits per pixel) is increasingly critical for bandwidth-constrained and computation-limited encoding scenarios such as edge devices. Existing frameworks typically rely on large pretrained encoders (e.g., VAEs or tokenizer-based models) and perform transform coding within their generative latent space. While these approaches achieve impressive perceptual fidelity, their reliance on heavy encoder networks makes them unsuitable for deployment on weak sender devices. In this work, we explore the feasibility of applying shallow encoders for ultra-low bitrate compression and propose a novel Asymmetric Extreme Image Compression (AEIC) framework that pursues simultaneously encoding simplicity and decoding quality. Specifically, AEIC employs moderate or even shallow encoder networks, while leveraging an one-step diffusion decoder to maintain high-fidelity and high-realism reconstructions under extreme bitrates. To further enhance the efficiency of shallow encoders, we design a dual-side feature distillation scheme that transfers knowledge from AEIC with moderate encoders to its shallow encoder variants. Experiments demonstrate that AEIC not only outperforms existing methods on rate-distortion-perception performance at ultra-low bitrates, but also delivers exceptional encoding efficiency for 35.8 FPS on 1080P input images, while maintaining competitive decoding speed compared to existing methods.
- Abstract(参考訳): 超低ビットレート画像圧縮(ピクセル当たり0.05ビット以下)は、エッジデバイスのような帯域制限と計算制限による符号化シナリオにおいてますます重要になっている。
既存のフレームワークは、通常、トレーニング済みの大規模なエンコーダ(例えば、VAEやトークン化器ベースのモデル)に依存し、生成潜在空間内で変換符号化を行う。
これらのアプローチは印象的な知覚的忠実性を実現する一方で、重いエンコーダネットワークに依存しているため、弱い送信装置への展開には適さない。
本研究では,超低ビットレート圧縮に浅層エンコーダを適用することの実現可能性について検討し,シンプルさとデコード品質を同時に符号化する新しい非対称極限画像圧縮(AEIC)フレームワークを提案する。
具体的には、AEICは適度または浅いエンコーダネットワークを使用し、一方の拡散デコーダを利用して極端ビットレートの下で高忠実で高現実的な再構築を維持する。
浅エンコーダの効率をさらに高めるため,弱エンコーダを用いたAEICから浅エンコーダの変種に知識を伝達する二面式特徴蒸留方式を設計した。
実験により、AEICは、超低ビットレートでのレート歪み知覚性能において既存の手法よりも優れているだけでなく、1080Pの入力画像上で35.8 FPSに対して、既存の手法と比較して競合復号速度を維持しながら、例外的な符号化効率を提供することが示された。
関連論文リスト
- SIEDD: Shared-Implicit Encoder with Discrete Decoders [36.705337163276255]
Inlicit Neural Representations (INR)は、ビデオごとの最適化機能を学ぶことによって、ビデオ圧縮に例外的な忠実度を提供する。
既存のINRエンコーディングの高速化の試みは、しばしば再建品質や重要な座標レベルの制御を犠牲にしている。
これらの妥協なしにINRエンコーディングを根本的に高速化する新しいアーキテクチャであるSIEDDを紹介する。
論文 参考訳(メタデータ) (2025-06-29T19:39:43Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Single-step Diffusion for Image Compression at Ultra-Low Bitrates [19.76457078979179]
超低速度で高い知覚品質と高速デコードを実現する画像圧縮のための単一ステップ拡散モデルを提案する。
このアプローチには2つの重要なイノベーションが含まれている。 (i) ベクトル量子残留(VQ-Residual)トレーニング。
圧縮性能は最先端の手法に匹敵し,デコード速度を約50倍向上させる。
論文 参考訳(メタデータ) (2025-06-19T19:53:27Z) - Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Enhancing the Rate-Distortion-Perception Flexibility of Learned Image
Codecs with Conditional Diffusion Decoders [7.485128109817576]
本研究では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
本稿では,デコーダとして使用する場合,条件拡散モデルが生成圧縮タスクにおいて有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2024-03-05T11:48:35Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。