論文の概要: DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
- arxiv url: http://arxiv.org/abs/2603.13162v1
- Date: Fri, 13 Mar 2026 16:56:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:12.201235
- Title: DiT-IC: Aligned Diffusion Transformer for Efficient Image Compression
- Title(参考訳): DiT-IC:高効率画像圧縮用配向拡散変換器
- Authors: Junqi Shi, Ming Lu, Xingchen Li, Anle Ke, Ruiqi Zhang, Zhan Ma,
- Abstract要約: DiT-ICは画像圧縮用アライメント拡散変換器である。
U-NetをDiffusion Transformerに置き換え、32倍のダウンスケール解像度で遅延空間での拡散を可能にする。
16GBのラップトップGPUで2048x2048画像を再構成できる。
- 参考スコア(独自算出の注目度): 56.68267606568949
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diffusion-based image compression has recently shown outstanding perceptual fidelity, yet its practicality is hindered by prohibitive sampling overhead and high memory usage. Most existing diffusion codecs employ U-Net architectures, where hierarchical downsampling forces diffusion to operate in shallow latent spaces (typically with only 8x spatial downscaling), resulting in excessive computation. In contrast, conventional VAE-based codecs work in much deeper latent domains (16x - 64x downscaled), motivating a key question: Can diffusion operate effectively in such compact latent spaces without compromising reconstruction quality? To address this, we introduce DiT-IC, an Aligned Diffusion Transformer for Image Compression, which replaces the U-Net with a Diffusion Transformer capable of performing diffusion in latent space entirely at 32x downscaled resolution. DiT-IC adapts a pretrained text-to-image multi-step DiT into a single-step reconstruction model through three key alignment mechanisms: (1) a variance-guided reconstruction flow that adapts denoising strength to latent uncertainty for efficient reconstruction; (2) a self-distillation alignment that enforces consistency with encoder-defined latent geometry to enable one-step diffusion; and (3) a latent-conditioned guidance that replaces text prompts with semantically aligned latent conditions, enabling text-free inference. With these designs, DiT-IC achieves state-of-the-art perceptual quality while offering up to 30x faster decoding and drastically lower memory usage than existing diffusion-based codecs. Remarkably, it can reconstruct 2048x2048 images on a 16 GB laptop GPU.
- Abstract(参考訳): 拡散に基づく画像圧縮は近年、知覚の忠実さに優れていますが、その実用性は、サンプリングオーバーヘッドの禁止とメモリ使用量の増加によって妨げられています。
既存の拡散コーデックの多くはU-Netアーキテクチャを採用しており、階層的なダウンサンプリングは浅い潜在空間(通常は8倍の空間ダウンスケーリングしか持たない)で拡散を強制し、過剰な計算をもたらす。
対照的に、従来のVAEベースのコーデックはより深い潜伏領域(16x - 64xダウンスケール)で動作し、重要な疑問を動機付けている。
これを解決するために,画像圧縮用アラインド拡散変換器であるDiT-ICを導入し,32倍の解像度で遅延空間での拡散を行うことができる拡散変換器をU-Netに置き換えた。
DiT-ICは、3つの主要なアライメント機構により、事前訓練されたテキスト・ツー・イメージの多段階DiTを1段階の再構成モデルに適応させる。(1)遅延不確実性に遅延強度を適応させる分散誘導再構成流、(2)エンコーダで定義された潜時幾何学との整合性を適用して1段階の拡散を可能にする自己蒸留アライメント、(3)テキストプロンプトを意味的に整合した潜時条件に置き換える潜在条件付きガイダンス、である。
これらの設計により、DiT-ICは、既存の拡散ベースのコーデックに比べて最大30倍高速なデコードとメモリ使用率を大幅に低下させながら、最先端の知覚品質を実現する。
注目すべきは、16GBのラップトップGPUで2048x2048の画像を再構築できることだ。
関連論文リスト
- Laminating Representation Autoencoders for Efficient Diffusion [18.989001805139573]
近年の研究では、拡散モデルがピクセル空間ラテントではなくSSLパッチ機能を直接操作することで、高品質な画像を生成することが示されている。
この表現をわずか32個の連続トークンからなる1次元列に圧縮する変分オートエンコーダであるFlatDINOを導入する。
論文 参考訳(メタデータ) (2026-02-04T18:57:33Z) - Ultra-Low Bitrate Perceptual Image Compression with Shallow Encoder [41.0853762937392]
本稿では, シンプルさとデコード品質を同時に符号化する非対称なエクストリーム画像圧縮(AEIC)フレームワークを提案する。
AEICは中程度のあるいは浅いエンコーダネットワークを使用し、一方の拡散デコーダを利用して高忠実性と高現実性を維持する。
AEICは、Ultra-lowsでのレート歪み知覚性能の既存の手法よりも優れているだけでなく、1080Pの入力画像上で35.8FPSの符号化効率も優れていることを示した。
論文 参考訳(メタデータ) (2025-12-13T07:59:48Z) - Diffusion Transformers with Representation Autoencoders [35.43400861279246]
事前学習された自己エンコーダが拡散過程の遅延空間に画素をマッピングする潜在生成モデリングは拡散変換器(DiT)の標準戦略となっている。
ほとんどのDiTはオリジナルのVAEエンコーダに依存しており、いくつかの制限が課されている。
本研究では、VAEをトレーニングされたデコーダと組み合わせた事前訓練された表現エンコーダに置き換え、Representation Autoencoders (RAE) と呼ぶものを形成する。
論文 参考訳(メタデータ) (2025-10-13T17:51:39Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - Ultra Lowrate Image Compression with Semantic Residual Coding and Compression-aware Diffusion [28.61304513668606]
ResULICは残留誘導型超低レート画像圧縮システムである。
残差信号は意味検索と拡散に基づく生成プロセスの両方に組み込む。
最先端拡散法に比べて客観的・主観的性能に優れる。
論文 参考訳(メタデータ) (2025-05-13T06:51:23Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Rethinking Video Tokenization: A Conditioned Diffusion-based Approach [58.164354605550194]
新しいトークン化ツールであるDiffusion Conditioned-based Gene Tokenizerは、GANベースのデコーダを条件付き拡散モデルで置き換える。
再建に基本的MSE拡散損失とKL項,LPIPSを併用した訓練を行った。
CDTのスケールダウン版(3$times inference speedup)でさえ、トップベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-03-05T17:59:19Z) - Modeling Lost Information in Lossy Image Compression [72.69327382643549]
ロスシー画像圧縮は、デジタル画像の最もよく使われる演算子の1つである。
Invertible Lossy Compression (ILC) と呼ばれる新しい非可逆的フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-22T04:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。