論文の概要: Exploring the Limits of Semantic Image Compression at Micro-bits per
Pixel
- arxiv url: http://arxiv.org/abs/2402.13536v1
- Date: Wed, 21 Feb 2024 05:14:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 16:57:30.076806
- Title: Exploring the Limits of Semantic Image Compression at Micro-bits per
Pixel
- Title(参考訳): 画素当たりのマイクロビットにおける意味的画像圧縮限界の探索
- Authors: Jordan Dotzel, Bahaa Kotb, James Dotzel, Mohamed Abdelfattah, Zhiru
Zhang
- Abstract要約: 我々はOpenAIのGPT-4VとDALL-E3を使って画像圧縮のための品質圧縮フロンティアを探索する。
我々は、反復的なリフレクションプロセスを導入することで、セマンティック圧縮を100$mu$bpp(JPEGより1万ドル以上安い)まで低くします。
さらに、この100$mu$bppレベルは、標準的な画像解像度におけるセマンティック圧縮のソフトな制限を表すと仮定する。
- 参考スコア(独自算出の注目度): 8.518076792914039
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional methods, such as JPEG, perform image compression by operating on
structural information, such as pixel values or frequency content. These
methods are effective to bitrates around one bit per pixel (bpp) and higher at
standard image sizes. In contrast, text-based semantic compression directly
stores concepts and their relationships using natural language, which has
evolved with humans to efficiently represent these salient concepts. These
methods can operate at extremely low bitrates by disregarding structural
information like location, size, and orientation. In this work, we use GPT-4V
and DALL-E3 from OpenAI to explore the quality-compression frontier for image
compression and identify the limitations of current technology. We push
semantic compression as low as 100 $\mu$bpp (up to $10,000\times$ smaller than
JPEG) by introducing an iterative reflection process to improve the decoded
image. We further hypothesize this 100 $\mu$bpp level represents a soft limit
on semantic compression at standard image resolutions.
- Abstract(参考訳): JPEGのような従来の方法では、ピクセル値や周波数内容などの構造情報を操作することで画像圧縮を行う。
これらの手法は、1ピクセルあたり1ビット(bpp)あたりのビットレートを標準画像サイズで高くするのに有効である。
対照的に、テキストベースのセマンティック圧縮は、人間と進化した自然言語を使って概念とそれらの関係を直接記憶し、これらの健全な概念を効率的に表現している。
これらの手法は、位置、サイズ、方向といった構造情報を無視して極端に低いビットレートで動作することができる。
本研究では,openai の gpt-4v と dall-e3 を用いて画像圧縮のための品質圧縮フロンティアを探索し,現在の技術限界を特定する。
我々は、デコードされた画像を改善するために反復的リフレクションプロセスを導入することにより、100$\mu$bpp(JPEGよりも100$10,000\times$小さい)のセマンティック圧縮をプッシュする。
さらに、この100$\mu$bppレベルは、標準的な画像解像度におけるセマンティック圧縮のソフトな制限を表すと仮定する。
関連論文リスト
- MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Towards image compression with perfect realism at ultra-low bitrates [28.511327714128413]
当社のモデルPerCoを"知覚圧縮"としてダブし、最先端コーデックを0.1から0.003ビット/ピクセルのレートで比較します。
FID と KID によって測定された現状の視覚的品質によって,本モデルが再構築に繋がることがわかった。
論文 参考訳(メタデータ) (2023-10-16T12:08:35Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Random-Access Neural Compression of Material Textures [1.2971248363246106]
材料テクスチャに特化して設計された新しいニューラル圧縮手法を提案する。
我々は低圧縮でさらに2つの詳細レベル、すなわち16倍のテクセルをアンロックする。
本手法では,ランダムアクセスによるオンデマンドリアルタイム圧縮が可能で,ディスクやメモリ上での圧縮が可能となる。
論文 参考訳(メタデータ) (2023-05-26T17:16:22Z) - COIN: COmpression with Implicit Neural representations [64.02694714768691]
画像圧縮のための新しい簡易手法を提案する。
画像の各ピクセルのRGB値を格納する代わりに、画像に過度に適合したニューラルネットワークの重みを格納する。
論文 参考訳(メタデータ) (2021-03-03T10:58:39Z) - How to Exploit the Transferability of Learned Image Compression to
Conventional Codecs [25.622863999901874]
本稿では,学習した画像の符号化をサロゲートとして利用して,画像の符号化を最適化する方法を示す。
提案手法は,MS-SSIM歪みをデコードオーバーヘッドを伴わずに20%以上の速度改善で補正するために,従来の画像を再構成することができる。
論文 参考訳(メタデータ) (2020-12-03T12:34:51Z) - Lossy Image Compression with Normalizing Flows [19.817005399746467]
ディープ・イメージ・圧縮のための最先端のソリューションは、通常、入力を低次元の潜在空間にマッピングするオートエンコーダを用いる。
対照的に、画像圧縮における従来のアプローチは、より幅広い品質レベルを実現する。
論文 参考訳(メタデータ) (2020-08-24T14:46:23Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z) - Discernible Image Compression [124.08063151879173]
本稿では、外観と知覚の整合性の両方を追求し、圧縮画像を作成することを目的とする。
エンコーダ・デコーダ・フレームワークに基づいて,事前学習したCNNを用いて,オリジナル画像と圧縮画像の特徴を抽出する。
ベンチマーク実験により,提案手法を用いて圧縮した画像は,その後の視覚認識・検出モデルでもよく認識できることが示された。
論文 参考訳(メタデータ) (2020-02-17T07:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。