論文の概要: Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need
- arxiv url: http://arxiv.org/abs/2411.12448v2
- Date: Fri, 22 Nov 2024 02:31:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 12:05:40.950548
- Title: Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need
- Title(参考訳): ロスレス画像圧縮のための大規模言語モデル:言語空間における次世代の予測
- Authors: Kecheng Chen, Pingping Zhang, Hui Liu, Jie Liu, Yibing Liu, Jiaxin Huang, Shiqi Wang, Hong Yan, Haoliang Li,
- Abstract要約: 前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
- 参考スコア(独自算出の注目度): 53.584140947828004
- License:
- Abstract: We have recently witnessed that ``Intelligence" and `` Compression" are the two sides of the same coin, where the language large model (LLM) with unprecedented intelligence is a general-purpose lossless compressor for various data modalities. This attribute particularly appeals to the lossless image compression community, given the increasing need to compress high-resolution images in the current streaming media era. Consequently, a spontaneous envision emerges: Can the compression performance of the LLM elevate lossless image compression to new heights? However, our findings indicate that the naive application of LLM-based lossless image compressors suffers from a considerable performance gap compared with existing state-of-the-art (SOTA) codecs on common benchmark datasets. In light of this, we are dedicated to fulfilling the unprecedented intelligence (compression) capacity of the LLM for lossless image compression tasks, thereby bridging the gap between theoretical and practical compression performance. Specifically, we propose P$^{2}$-LLM, a next-pixel prediction-based LLM, which integrates various elaborated insights and methodologies, \textit{e.g.,} pixel-level priors, the in-context ability of LLM, and a pixel-level semantic preservation strategy, to enhance the understanding capacity of pixel sequences for better next-pixel predictions. Extensive experiments on benchmark datasets demonstrate that P$^{2}$-LLM can beat SOTA classical and learned codecs.
- Abstract(参考訳): 我々は最近,「インテリジェンス」と「圧縮」が,前例のないインテリジェンスを持つ言語大モデル(LLM)が,様々なデータモダリティのための汎用ロスレス圧縮機である,同じコインの2つの側面であることを示した。
この特性は、現在のストリーミングメディア時代に高解像度の画像を圧縮する必要性が高まっているため、ロスレス画像圧縮コミュニティに特にアピールする。
LLMの圧縮性能は、ロスレス画像圧縮を新しい高さまで高めることができるか?
しかし, 従来のベンチマークデータセットのSOTAコーデックと比較すると, LLMベースのロスレス画像圧縮機は, 性能差がかなり大きいことが示唆された。
これを踏まえて、ロスレス画像圧縮タスクにおいて、LLMの先例のない知能(圧縮)能力を達成することに専念し、理論的および実用的な圧縮性能のギャップを埋める。
具体的には,P$^{2}$-LLMを提案する。P$^{2}$-LLMは,様々な精巧な洞察と方法論,<textit{e g ,} ピクセルレベルの事前処理,LLMのコンテキスト内能力,および画素レベルのセマンティック保存戦略を統合し,次世代の予測のための画素シーケンスの理解能力を向上させる。
ベンチマークデータセットの大規模な実験により、P$^{2}$-LLMがSOTA古典および学習コーデックに勝ることを示した。
関連論文リスト
- Learned Image Compression for HE-stained Histopathological Images via Stain Deconvolution [33.69980388844034]
本稿では,一般的なJPEGアルゴリズムがさらなる圧縮に適していないことを示す。
Stain Quantized Latent Compression, a novel DL based histopathology data compression approach。
提案手法はJPEGのような従来の手法と比較して,下流タスクの分類において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2024-06-18T13:47:17Z) - Unifying Generation and Compression: Ultra-low bitrate Image Coding Via
Multi-stage Transformer [35.500720262253054]
本稿では,新しい画像生成圧縮(UIGC)パラダイムを導入し,生成と圧縮のプロセスを統合する。
UIGCフレームワークの重要な特徴は、トークン化にベクトル量子化(VQ)イメージモデルを採用することである。
実験では、既存のコーデックよりも知覚品質と人間の知覚において、提案されたUIGCフレームワークが優れていることを示した。
論文 参考訳(メタデータ) (2024-03-06T14:27:02Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - FLLIC: Functionally Lossless Image Compression [16.892815659154053]
機能的ロスレス画像圧縮(FLLIC)と呼ばれる,関節の認知と圧縮の新しいパラダイムを提案する。
FLLICは、ノイズの多い画像の調音・圧縮における最先端性能を実現し、計算コストを下げる。
論文 参考訳(メタデータ) (2024-01-24T17:44:33Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Learned Lossless Compression for JPEG via Frequency-Domain Prediction [50.20577108662153]
JPEG画像のロスレス圧縮を学習するための新しいフレームワークを提案する。
周波数領域での学習を可能にするために、DCT係数は暗黙の局所冗長性を利用するためにグループに分割される。
グループ化されたDCT係数のエントロピーモデリングを実現するために、重み付きブロックに基づいてオートエンコーダのようなアーキテクチャを設計する。
論文 参考訳(メタデータ) (2023-03-05T13:15:28Z) - Deep Lossy Plus Residual Coding for Lossless and Near-lossless Image
Compression [85.93207826513192]
本稿では、損失のない画像圧縮とほぼロスレス画像圧縮の両面において、統合された強力な深い損失+残差(DLPR)符号化フレームワークを提案する。
VAEのアプローチにおける連立損失と残留圧縮の問題を解く。
ほぼロスレスモードでは、元の残差を量子化し、与えられた$ell_infty$エラー境界を満たす。
論文 参考訳(メタデータ) (2022-09-11T12:11:56Z) - Learned Lossless Image Compression With Combined Autoregressive Models
And Attention Modules [22.213840578221678]
ロスレス画像圧縮は画像圧縮において重要な研究分野である。
近年の学習に基づく画像圧縮法は優れた性能を示した。
本稿では,ロスレス圧縮に広く用いられている手法について検討し,ロスレス圧縮に適用する。
論文 参考訳(メタデータ) (2022-08-30T03:27:05Z) - Learning Scalable $\ell_\infty$-constrained Near-lossless Image
Compression via Joint Lossy Image and Residual Compression [118.89112502350177]
本稿では,$ell_infty$-constrained near-lossless image compressionを学習するための新しいフレームワークを提案する。
元の残差の学習確率モデルを定量化し、量子化残差の確率モデルを導出する。
論文 参考訳(メタデータ) (2021-03-31T11:53:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。