論文の概要: Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression
- arxiv url: http://arxiv.org/abs/2412.12982v1
- Date: Tue, 17 Dec 2024 15:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:57:28.020106
- Title: Stable Diffusion is a Natural Cross-Modal Decoder for Layered AI-generated Image Compression
- Title(参考訳): 安定拡散は階層型AI生成画像圧縮のための自然なクロスモーダルデコーダである
- Authors: Ruijie Chen, Qi Mao, Zhengxue Cheng,
- Abstract要約: 我々は、複数の人間-理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
我々のフレームワークは,高レベルなセマンティック情報を提供するセマンティック層からなる層状ビットストリームに画像をエンコードする。
提案手法は意味的および視覚的詳細の両方を巧みに復元し,極端に低速度でベースラインアプローチと競合する。
- 参考スコア(独自算出の注目度): 7.643300240138419
- License:
- Abstract: Recent advances in Artificial Intelligence Generated Content (AIGC) have garnered significant interest, accompanied by an increasing need to transmit and compress the vast number of AI-generated images (AIGIs). However, there is a noticeable deficiency in research focused on compression methods for AIGIs. To address this critical gap, we introduce a scalable cross-modal compression framework that incorporates multiple human-comprehensible modalities, designed to efficiently capture and relay essential visual information for AIGIs. In particular, our framework encodes images into a layered bitstream consisting of a semantic layer that delivers high-level semantic information through text prompts; a structural layer that captures spatial details using edge or skeleton maps; and a texture layer that preserves local textures via a colormap. Utilizing Stable Diffusion as the backend, the framework effectively leverages these multimodal priors for image generation, effectively functioning as a decoder when these priors are encoded. Qualitative and quantitative results show that our method proficiently restores both semantic and visual details, competing against baseline approaches at extremely low bitrates ( <0.02 bpp). Additionally, our framework facilitates downstream editing applications without requiring full decoding, thereby paving a new direction for future research in AIGI compression.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)の最近の進歩は、膨大な数のAI生成画像(AIGI)を送信・圧縮する必要性が高まるとともに、大きな関心を集めている。
しかし、AIGIの圧縮方法に焦点をあてた研究には、顕著な欠陥がある。
この重要なギャップに対処するために、我々は、AIGIに不可欠な視覚情報を効率的にキャプチャし、リレーするように設計された、複数の人間の理解可能なモダリティを組み込んだスケーラブルなクロスモーダル圧縮フレームワークを導入する。
特に,本フレームワークは,テキストプロンプトを通じて高レベルの意味情報を提供するセマンティック層,エッジやスケルトンマップを用いて空間的詳細をキャプチャする構造層,カラーマップによる局所的なテクスチャを保存するテクスチャ層からなる階層化ビットストリームに画像をエンコードする。
安定拡散をバックエンドとして利用することで、このフレームワークは画像生成にこれらのマルチモーダル先行を効果的に利用し、これらの先行をエンコードした時にデコーダとして効果的に機能する。
定性的かつ定量的な結果から,本手法は,極低ビットレート (0.02 bpp) のベースラインアプローチと競合し,意味的および視覚的詳細の両方を十分に復元することを示した。
さらに、本フレームワークは、完全な復号化を必要とせずに、下流の編集アプリケーションを容易にし、AIGI圧縮の今後の研究に向けた新たな方向性を開拓する。
関連論文リスト
- Toward Scalable Image Feature Compression: A Content-Adaptive and Diffusion-Based Approach [44.03561901593423]
本稿では,スケーラブルな画像圧縮のためのコンテンツ適応拡散モデルを提案する。
提案手法は拡散過程を通じて微細なテクスチャを符号化し,知覚品質を向上する。
画像再構成および下流マシンビジョンタスクにおいて,提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-10-08T15:48:34Z) - Map-Assisted Remote-Sensing Image Compression at Extremely Low Bitrates [47.47031054057152]
生成モデルはRS画像を極低ビットレートストリームに圧縮するために研究されている。
これらの生成モデルは、非常に低ビットレート画像圧縮の極めて不適切な性質のため、視覚的に可視な画像の再構成に苦慮している。
本研究では,高現実性再構築を実現するために,自然画像に先行した事前学習拡散モデルを用いた画像圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-03T14:29:54Z) - DeepHQ: Learned Hierarchical Quantizer for Progressive Deep Image Coding [27.875207681547074]
プログレッシブ画像符号化(PIC)は、画像の様々な品質を単一のビットストリームに圧縮することを目的としている。
ニューラルネットワーク(NN)に基づくPICの研究は、その初期段階にある。
本稿では,まず,学習した量子化ステップサイズを各量子化レイヤの学習により活用するNNベースのプログレッシブコーディング手法を提案する。
論文 参考訳(メタデータ) (2024-08-22T06:32:53Z) - Neural Graphics Texture Compression Supporting Random Access [34.974631096947284]
本稿では,従来のGPUテクスチャ表現とNIC技術を統合したテクスチャセット圧縮手法を提案する。
本稿では、畳み込みエンコーダを用いた非対称自動エンコーダフレームワークを提案する。
実験により,従来のテクスチャ圧縮よりも優れた結果が得られた。
論文 参考訳(メタデータ) (2024-05-06T19:44:13Z) - MISC: Ultra-low Bitrate Image Semantic Compression Driven by Large Multimodal Model [78.4051835615796]
本稿では,マルチモーダル画像セマンティック圧縮法を提案する。
画像の意味情報を抽出するLMMエンコーダと、その意味に対応する領域を特定するマップエンコーダと、非常に圧縮されたビットストリームを生成する画像エンコーダと、前記情報に基づいて画像を再構成するデコーダとからなる。
知覚50%を節約しながら最適な一貫性と知覚結果を達成することができ、これは次世代のストレージと通信において強力な可能性を持つ。
論文 参考訳(メタデータ) (2024-02-26T17:11:11Z) - Perceptual Image Compression with Cooperative Cross-Modal Side
Information [53.356714177243745]
本稿では,テキスト誘導側情報を用いた新しい深層画像圧縮手法を提案する。
具体的には,CLIPテキストエンコーダとSemantic-Spatial Awareブロックを用いてテキストと画像の特徴を融合する。
論文 参考訳(メタデータ) (2023-11-23T08:31:11Z) - You Can Mask More For Extremely Low-Bitrate Image Compression [80.7692466922499]
近年,学習画像圧縮(lic)法は大きな進歩を遂げている。
licメソッドは、画像圧縮に不可欠な画像構造とテクスチャコンポーネントを明示的に探索することができない。
原画像の構造とテクスチャに基づいて可視パッチをサンプリングするDA-Maskを提案する。
極めて低ビットレート圧縮のために, lic と lic のエンドツーエンドを統一する最初のフレームワークである, 単純で効果的なマスク付き圧縮モデル (MCM) を提案する。
論文 参考訳(メタデータ) (2023-06-27T15:36:22Z) - Hierarchical Diffusion Autoencoders and Disentangled Image Manipulation [36.20575570779196]
拡散モデルの潜在空間に対して,細粒度から細粒度まで,低レベルから高レベルの特徴階層を利用する。
HDAEの階層的潜在空間は本質的に異なる抽象的な意味論のレベルを符号化し、より包括的な意味表現を提供する。
提案手法の有効性を実験的に検証し,画像再構成,スタイル混合,制御可能,ディテール保存,不整合な画像操作に応用した。
論文 参考訳(メタデータ) (2023-04-24T05:35:59Z) - Early Exit or Not: Resource-Efficient Blind Quality Enhancement for
Compressed Images [54.40852143927333]
ロスシー画像圧縮は、通信帯域を節約するために広範に行われ、望ましくない圧縮アーティファクトをもたらす。
圧縮画像に対する資源効率の高いブラインド品質向上手法(RBQE)を提案する。
提案手法は, 評価された画像の品質に応じて, 自動的にエンハンスメントを終了するか, 継続するかを決定することができる。
論文 参考訳(メタデータ) (2020-06-30T07:38:47Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z) - Towards Analysis-friendly Face Representation with Scalable Feature and
Texture Compression [113.30411004622508]
普遍的で協調的な視覚情報表現は階層的な方法で実現できることを示す。
ディープニューラルネットワークの強力な生成能力に基づいて、基本特徴層と強化層の間のギャップは、特徴レベルのテクスチャ再構築によってさらに埋められる。
提案するフレームワークの効率を改善するために,ベース層ニューラルネットワークをマルチタスクでトレーニングする。
論文 参考訳(メタデータ) (2020-04-21T14:32:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。