論文の概要: Large Language Model for Lossless Image Compression with Visual Prompts
- arxiv url: http://arxiv.org/abs/2502.16163v1
- Date: Sat, 22 Feb 2025 09:36:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:52:43.909541
- Title: Large Language Model for Lossless Image Compression with Visual Prompts
- Title(参考訳): 視覚プロンプトを用いたロスレス画像圧縮のための大規模言語モデル
- Authors: Junhao Du, Chuqin Zhou, Ning Cao, Gang Chen, Yunuo Chen, Zhengxue Cheng, Li Song, Guo Lu, Wenjun Zhang,
- Abstract要約: 本稿では,大規模言語モデルに視覚的プロンプトを組み込んだ,ロスレス画像圧縮のための新しいパラダイムを提案する。
複数のベンチマークデータセットの実験により,本手法が最先端の圧縮性能を実現することを示す。
我々のアプローチは、医用画像やスクリーンコンテンツ画像など他の領域の画像にも容易に拡張でき、優れたパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 26.132381529841815
- License:
- Abstract: Recent advancements in deep learning have driven significant progress in lossless image compression. With the emergence of Large Language Models (LLMs), preliminary attempts have been made to leverage the extensive prior knowledge embedded in these pretrained models to enhance lossless image compression, particularly by improving the entropy model. However, a significant challenge remains in bridging the gap between the textual prior knowledge within LLMs and lossless image compression. To tackle this challenge and unlock the potential of LLMs, this paper introduces a novel paradigm for lossless image compression that incorporates LLMs with visual prompts. Specifically, we first generate a lossy reconstruction of the input image as visual prompts, from which we extract features to serve as visual embeddings for the LLM. The residual between the original image and the lossy reconstruction is then fed into the LLM along with these visual embeddings, enabling the LLM to function as an entropy model to predict the probability distribution of the residual. Extensive experiments on multiple benchmark datasets demonstrate our method achieves state-of-the-art compression performance, surpassing both traditional and learning-based lossless image codecs. Furthermore, our approach can be easily extended to images from other domains, such as medical and screen content images, achieving impressive performance. These results highlight the potential of LLMs for lossless image compression and may inspire further research in related directions.
- Abstract(参考訳): 近年のディープラーニングの進歩は、ロスレス画像圧縮の大幅な進歩をもたらした。
LLM(Large Language Models)の出現に伴い、これらの事前訓練されたモデルに埋め込まれた広範な事前知識を活用して、特にエントロピーモデルを改善することで、ロスレス画像圧縮を向上する予備的な試みがなされた。
しかし、LLMにおけるテキストの事前知識とロスレス画像圧縮とのギャップを埋めることには大きな課題が残っている。
この課題に対処し、LLMの可能性を解き放つために、視覚的プロンプトを組み込んだロスレス画像圧縮のための新しいパラダイムを提案する。
具体的には、まず視覚的プロンプトとして入力画像の損失のある再構成を生成し、LLMの視覚的埋め込みとして機能する特徴を抽出する。
元の画像と失われた再構成の間の残差は、これらの視覚的埋め込みと共にLLMに供給され、LLMはエントロピーモデルとして機能し、残差の確率分布を予測する。
複数のベンチマークデータセットに対する大規模な実験により、従来の画像コーデックと学習ベースのロスレス画像コーデックを超越して、最先端の圧縮性能を実現することができた。
さらに,本手法は,医用画像やスクリーン画像などの他の領域の画像にも容易に拡張可能であり,優れた性能を実現している。
これらの結果は、ロスレス画像圧縮のためのLCMの可能性を強調し、関連する方向のさらなる研究を促す可能性がある。
関連論文リスト
- CALLIC: Content Adaptive Learning for Lossless Image Compression [64.47244912937204]
CALLICは、学習したロスレス画像圧縮のための新しい最先端(SOTA)を設定する。
本稿では,畳み込みゲーティング操作を利用したコンテンツ認識型自己回帰自己保持機構を提案する。
エンコーディング中、低ランク行列を用いて深度の畳み込みを含む事前学習層を分解し、レート誘導プログレッシブファインタニング(RPFT)による画像検査にインクリメンタルウェイトを適応させる。
推定エントロピーにより下位順にソートされたパッチを徐々に増加させたRPFTファインチューン,学習過程の最適化,適応時間の短縮を実現した。
論文 参考訳(メタデータ) (2024-12-23T10:41:18Z) - Large Language Models for Lossless Image Compression: Next-Pixel Prediction in Language Space is All You Need [53.584140947828004]
前例のないインテリジェンスを持つ言語大モデル(LLM)は、様々なデータモダリティのための汎用ロスレス圧縮機である。
P$2$-LLMは,様々な入念な洞察と方法論を統合した次世代の予測型LLMである。
ベンチマークデータセットの実験では、P$2$-LLMがSOTAの古典的および学習的コーデックに勝ることを示した。
論文 参考訳(メタデータ) (2024-11-19T12:15:40Z) - Transferable Learned Image Compression-Resistant Adversarial Perturbations [66.46470251521947]
敵対的攻撃は容易に画像分類システムを破壊し、DNNベースの認識タスクの脆弱性を明らかにする。
我々は、学習した画像圧縮機を前処理モジュールとして利用する画像分類モデルをターゲットにした新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2024-01-06T03:03:28Z) - Image Compression and Decompression Framework Based on Latent Diffusion
Model for Breast Mammography [0.0]
本研究では,潜在拡散モデル(LDM)を用いた医用画像の圧縮・圧縮のための新しい枠組みを提案する。
LDMは, 拡散確率モデル (DDPM) の進歩を表現し, 優れた画質が得られる可能性が示唆された。
医用画像データを用いた画像アップスケーリングにおけるLCMとTorchvisionの応用の可能性について検討した。
論文 参考訳(メタデータ) (2023-10-08T22:08:59Z) - Learned Lossless Image Compression With Combined Autoregressive Models
And Attention Modules [22.213840578221678]
ロスレス画像圧縮は画像圧縮において重要な研究分野である。
近年の学習に基づく画像圧縮法は優れた性能を示した。
本稿では,ロスレス圧縮に広く用いられている手法について検討し,ロスレス圧縮に適用する。
論文 参考訳(メタデータ) (2022-08-30T03:27:05Z) - Implicit Neural Representations for Image Compression [103.78615661013623]
Inlicit Neural Representations (INRs) は、様々なデータ型の新規かつ効果的な表現として注目されている。
量子化、量子化を考慮した再学習、エントロピー符号化を含むINRに基づく最初の包括的圧縮パイプラインを提案する。
我々は、INRによるソース圧縮に対する我々のアプローチが、同様の以前の作業よりも大幅に優れていることに気付きました。
論文 参考訳(メタデータ) (2021-12-08T13:02:53Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。