論文の概要: DLF: Extreme Image Compression with Dual-generative Latent Fusion
- arxiv url: http://arxiv.org/abs/2503.01428v2
- Date: Fri, 07 Mar 2025 08:21:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:25:41.709150
- Title: DLF: Extreme Image Compression with Dual-generative Latent Fusion
- Title(参考訳): DLF: Dual-generative Latent Fusion による極端画像圧縮
- Authors: Naifu Xue, Zhaoyang Jia, Jiahao Li, Bin Li, Yuan Zhang, Yan Lu,
- Abstract要約: 極端画像圧縮のためのDual-generative Latent Fusion (DLF) パラダイムを導入する。
DLFは潜伏語を意味的要素と詳細要素に分解し、2つの異なる分岐を通して圧縮する。
LPIPSは最大27.93%, DisTSは最大53.55%の削減を実現している。
- 参考スコア(独自算出の注目度): 25.910952778218146
- License:
- Abstract: Recent studies in extreme image compression have achieved remarkable performance by compressing the tokens from generative tokenizers. However, these methods often prioritize clustering common semantics within the dataset, while overlooking the diverse details of individual objects. Consequently, this results in suboptimal reconstruction fidelity, especially at low bitrates. To address this issue, we introduce a Dual-generative Latent Fusion (DLF) paradigm. DLF decomposes the latent into semantic and detail elements, compressing them through two distinct branches. The semantic branch clusters high-level information into compact tokens, while the detail branch encodes perceptually critical details to enhance the overall fidelity. Additionally, we propose a cross-branch interactive design to reduce redundancy between the two branches, thereby minimizing the overall bit cost. Experimental results demonstrate the impressive reconstruction quality of DLF even below 0.01 bits per pixel (bpp). On the CLIC2020 test set, our method achieves bitrate savings of up to 27.93% on LPIPS and 53.55% on DISTS compared to MS-ILLM. Furthermore, DLF surpasses recent diffusion-based codecs in visual fidelity while maintaining a comparable level of generative realism. Code will be available later.
- Abstract(参考訳): 極端画像圧縮の最近の研究は、生成トークン化剤からトークンを圧縮することで、顕著な性能を実現している。
しかしながら、これらの手法は、個々のオブジェクトの様々な詳細を見下ろしながら、データセット内の共通のセマンティクスのクラスタ化を優先することが多い。
その結果、特に低ビットレートにおいて、最適な再建忠実度が得られる。
この問題に対処するために、デュアル世代ラテントフュージョン(DLF)パラダイムを導入する。
DLFは潜伏語を意味的要素と詳細要素に分解し、2つの異なる分岐を通して圧縮する。
セマンティックブランチは、高レベル情報をコンパクトトークンにクラスタリングし、ディテールブランチは、全体的な忠実性を高めるために知覚的に重要な詳細をエンコードする。
さらに,両ブランチ間の冗長性を低減し,全体のビットコストを最小化するためのクロスブランチ・インタラクティブ設計を提案する。
実験の結果,DLFは1ピクセル当たり0.01ビット以下(bpp。
LPIPSでは最大27.93%, DisTSでは最大53.55%のビットレート削減を実現した。
さらに、DLFは視覚的忠実度において近年の拡散に基づくコーデックを超越し、生成的リアリズムの同等レベルを維持している。
コードは後日公開される予定だ。
関連論文リスト
- LFIC-DRASC: Deep Light Field Image Compression Using Disentangled Representation and Asymmetrical Strip Convolution [51.909036244222904]
ディスタングル表現と非対称ストリップ畳み込みを用いたエンドツーエンドのディープLF画像圧縮法を提案する。
実験の結果,提案したLFIC-DRASCは平均20.5%のビットレート削減を達成した。
論文 参考訳(メタデータ) (2024-09-18T05:33:42Z) - HybridFlow: Infusing Continuity into Masked Codebook for Extreme Low-Bitrate Image Compression [51.04820313355164]
HyrbidFlowは、連続的な機能ベースのストリームとコードブックベースのストリームを組み合わせることで、極めて低い条件下で高い知覚品質と高い忠実性を実現する。
実験の結果、超低速で複数のデータセットにまたがる優れた性能が示された。
論文 参考訳(メタデータ) (2024-04-20T13:19:08Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Semantic Ensemble Loss and Latent Refinement for High-Fidelity Neural Image Compression [58.618625678054826]
本研究は、最適な視覚的忠実度のために設計された強化されたニューラル圧縮手法を提案する。
我々は,洗練されたセマンティック・アンサンブル・ロス,シャルボニエ・ロス,知覚的損失,スタイル・ロス,非バイナリ・ディバイザ・ロスを組み込んだモデルを構築した。
実験により,本手法は神経画像圧縮の統計的忠実度を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-01-25T08:11:27Z) - Asymmetric Learned Image Compression with Multi-Scale Residual Block,
Importance Map, and Post-Quantization Filtering [15.056672221375104]
ディープラーニングに基づく画像圧縮は、最新のH.266/VVCよりも高いレート歪み(R-D)性能を実現している。
多くの先導的な学習スキームは、パフォーマンスと複雑さの間の良いトレードオフを維持することができません。
そこで本研究では,R-D の性能を技術状況よりも低い複雑さで実現した,効率的かつ効果的な画像符号化フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-21T09:34:29Z) - Lossy Compression with Gaussian Diffusion [28.930398810600504]
非条件拡散生成モデルに基づく新しい損失圧縮手法DiffCについて述べる。
エンコーダ変換の欠如にもかかわらず、概念実証を実装し、驚くほどうまく機能することを発見した。
流れに基づく再構築は,祖先サンプリングよりも高頻度で3dBのゲインを達成できることを示す。
論文 参考訳(メタデータ) (2022-06-17T16:46:31Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。