論文の概要: Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models
- arxiv url: http://arxiv.org/abs/2211.07793v1
- Date: Mon, 14 Nov 2022 22:54:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-16 15:38:21.551038
- Title: Extreme Generative Image Compression by Learning Text Embedding from
Diffusion Models
- Title(参考訳): 拡散モデルからのテキスト埋め込み学習による極端生成画像圧縮
- Authors: Zhihong Pan, Xin Zhou, Hao Tian
- Abstract要約: 本稿では,画像を短いテキスト埋め込みとして保存する可能性を示す生成画像圧縮手法を提案する。
本手法は、知覚的品質と多様性の両方の観点から、他の最先端のディープラーニング手法よりも優れている。
- 参考スコア(独自算出の注目度): 13.894251782142584
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transferring large amount of high resolution images over limited bandwidth is
an important but very challenging task. Compressing images using extremely low
bitrates (<0.1 bpp) has been studied but it often results in low quality images
of heavy artifacts due to the strong constraint in the number of bits available
for the compressed data. It is often said that a picture is worth a thousand
words but on the other hand, language is very powerful in capturing the essence
of an image using short descriptions. With the recent success of diffusion
models for text-to-image generation, we propose a generative image compression
method that demonstrates the potential of saving an image as a short text
embedding which in turn can be used to generate high-fidelity images which is
equivalent to the original one perceptually. For a given image, its
corresponding text embedding is learned using the same optimization process as
the text-to-image diffusion model itself, using a learnable text embedding as
input after bypassing the original transformer. The optimization is applied
together with a learning compression model to achieve extreme compression of
low bitrates <0.1 bpp. Based on our experiments measured by a comprehensive set
of image quality metrics, our method outperforms the other state-of-the-art
deep learning methods in terms of both perceptual quality and diversity.
- Abstract(参考訳): 限られた帯域で大量の高解像度画像を転送することは重要であるが、非常に難しい作業である。
非常に低ビットレート (0.1 bpp) の圧縮画像が研究されているが, 圧縮データに利用可能なビット数に強い制約があるため, 重いアーティファクトの低品質な画像が得られることが多い。
絵は千語の価値があると言われることが多いが、一方では短い記述を用いて画像の本質を捉えるのに言語は非常に強力である。
近年のテキスト対画像生成のための拡散モデルの成功により,画像の保存を短いテキスト埋め込みとして行う可能性を示す生成画像圧縮手法が提案されている。
与えられた画像に対して、対応するテキスト埋め込みは、元の変換器をバイパスした後、入力として学習可能なテキスト埋め込みを用いて、テキスト間拡散モデル自体と同じ最適化プロセスを用いて学習される。
この最適化は学習圧縮モデルと共に適用され、低ビットレート <0.1 bpp の極端な圧縮を達成する。
総合的な画像品質指標で測定した実験に基づいて,本手法は知覚的品質と多様性の両面で,最先端のディープラーニング手法を上回っている。
関連論文リスト
- Towards Extreme Image Compression with Latent Feature Guidance and Diffusion Prior [8.772652777234315]
本稿では,事前学習した拡散モデルの強力な生成能力を生かした,新しい2段階の極端画像圧縮フレームワークを提案する。
本手法は, 視覚的性能を極端に低め, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-04-29T16:02:38Z) - Neural Image Compression with Text-guided Encoding for both Pixel-level and Perceptual Fidelity [18.469136842357095]
我々は,高知覚率と画素ワイド忠実度を両立させる新しいテキスト誘導画像圧縮アルゴリズムを開発した。
これにより、テキスト誘導生成モデルに基づく復号化を避けることができる。
提案手法は,人や機械が生成するキャプションを用いて,高いピクセルレベルと知覚品質を実現する。
論文 参考訳(メタデータ) (2024-03-05T13:15:01Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - Text + Sketch: Image Compression at Ultra Low Rates [22.771914148234103]
テキスト記述がサイド情報と連動して高忠実度再構築を実現する方法を示す。
本手法は, エンド・ツー・エンドのトレーニングを行わず, 知覚的・意味的忠実度の観点から, 学習圧縮機の性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-07-04T22:26:20Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Multi-Modality Deep Network for Extreme Learned Image Compression [31.532613540054697]
本稿では,テキストのセマンティック情報を先行情報として利用して画像圧縮性能を誘導する,テキスト誘導画像圧縮のためのマルチモーダル機械学習手法を提案する。
さらに,画像とテキストの特徴を融合させるために,画像テキストアテンションモジュールと画像検索サプリメントモジュールを採用し,セマンティック・コンシステント・ロスを改良し,セマンティック・完全再構築を実現する。
論文 参考訳(メタデータ) (2023-04-26T14:22:59Z) - Discriminative Class Tokens for Text-to-Image Diffusion Models [107.98436819341592]
自由形式のテキストの表現可能性を利用した非侵襲的な微調整手法を提案する。
本手法は,従来の微調整法と比較して高速で,クラス内の画像の収集を必要としない。
i)標準拡散モデルよりも正確で高品質な生成画像,(ii)低リソース環境でのトレーニングデータの拡張,および(iii)誘導分類器の訓練に使用されるデータ情報を明らかにする。
論文 参考訳(メタデータ) (2023-03-30T05:25:20Z) - Unified Multi-Modal Latent Diffusion for Joint Subject and Text
Conditional Image Generation [63.061871048769596]
本稿では, 特定対象を含む画像と共同テキストを入力シーケンスとして用いた, Unified Multi-Modal Latent Diffusion (UMM-Diffusion) を提案する。
より具体的には、入力テキストと画像の両方を1つの統一マルチモーダル潜在空間に符号化する。
入力テキストと画像の両面から複雑な意味を持つ高品質な画像を生成することができる。
論文 参考訳(メタデータ) (2023-03-16T13:50:20Z) - Estimating the Resize Parameter in End-to-end Learned Image Compression [50.20567320015102]
本稿では,最近の画像圧縮モデルの速度歪みトレードオフをさらに改善する検索自由化フレームワークについて述べる。
提案手法により,Bjontegaard-Deltaレート(BD-rate)を最大10%向上させることができる。
論文 参考訳(メタデータ) (2022-04-26T01:35:02Z) - Quantization Guided JPEG Artifact Correction [69.04777875711646]
我々はJPEGファイル量子化行列を用いたアーティファクト修正のための新しいアーキテクチャを開発した。
これにより、特定の品質設定のためにトレーニングされたモデルに対して、単一のモデルで最先端のパフォーマンスを達成できます。
論文 参考訳(メタデータ) (2020-04-17T00:10:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。