論文の概要: Laminating Representation Autoencoders for Efficient Diffusion
- arxiv url: http://arxiv.org/abs/2602.04873v1
- Date: Wed, 04 Feb 2026 18:57:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-05 19:45:11.699601
- Title: Laminating Representation Autoencoders for Efficient Diffusion
- Title(参考訳): 効率的な拡散のためのラミネート表現オートエンコーダ
- Authors: Ramón Calvo-González, François Fleuret,
- Abstract要約: 近年の研究では、拡散モデルがピクセル空間ラテントではなくSSLパッチ機能を直接操作することで、高品質な画像を生成することが示されている。
この表現をわずか32個の連続トークンからなる1次元列に圧縮する変分オートエンコーダであるFlatDINOを導入する。
- 参考スコア(独自算出の注目度): 18.989001805139573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent work has shown that diffusion models can generate high-quality images by operating directly on SSL patch features rather than pixel-space latents. However, the dense patch grids from encoders like DINOv2 contain significant redundancy, making diffusion needlessly expensive. We introduce FlatDINO, a variational autoencoder that compresses this representation into a one-dimensional sequence of just 32 continuous tokens -an 8x reduction in sequence length and 48x compression in total dimensionality. On ImageNet 256x256, a DiT-XL trained on FlatDINO latents achieves a gFID of 1.80 with classifier-free guidance while requiring 8x fewer FLOPs per forward pass and up to 4.5x fewer FLOPs per training step compared to diffusion on uncompressed DINOv2 features. These are preliminary results and this work is in progress.
- Abstract(参考訳): 近年の研究では、拡散モデルがピクセル空間ラテントではなくSSLパッチ機能を直接操作することで、高品質な画像を生成することが示されている。
しかし、DINOv2のようなエンコーダからの高密度パッチグリッドは大きな冗長性を持ち、不必要にコストがかかる。
この表現をわずか32個の連続トークンからなる1次元列に圧縮する変分オートエンコーダであるFlatDINOを導入する。
ImageNet 256x256では、FlatDINOのラテントで訓練されたDiT-XLが1.80のgFIDを達成し、非圧縮DINOv2機能での拡散と比較して、前方パスあたり8倍のFLOP、最大4.5倍のFLOPを必要とする。
これらは予備的な結果であり、この作業は進行中である。
関連論文リスト
- YODA: Yet Another One-step Diffusion-based Video Compressor [55.356234617448905]
1段階拡散モデルは最近、知覚的画像圧縮に優れており、ビデオへの応用は限られている。
本稿では,潜時生成と潜時符号化の両方の時間参照からマルチスケール特徴を組み込んだYYet-One-step Diffusion-based Videoを提案する。
YODAは最先端の知覚性能を実現し、LPIPS, DISTS, FID, KIDのディープラーニングベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2026-01-03T10:12:07Z) - DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - One Small Step in Latent, One Giant Leap for Pixels: Fast Latent Upscale Adapter for Your Diffusion Models [45.92038137978053]
本稿では,Latent Upscaler Adapter(LUA)について述べる。
LUAはドロップインコンポーネントとして統合されており、ベースモデルや追加の拡散段階を変更する必要はない。
スケール固有のピクセルシャッフルヘッドを持つ共有Swinスタイルのバックボーンは、2xと4xファクタをサポートし、画像空間SRベースラインと互換性がある。
論文 参考訳(メタデータ) (2025-11-13T18:54:18Z) - StableCodec: Taming One-Step Diffusion for Extreme Image Compression [19.69733852050049]
拡散に基づく画像圧縮は、高いリアリズムで超低符号化(1ピクセルあたり0.05ビット未満)を達成するという驚くべき可能性を示している。
現在のアプローチでは、極端な制約の下で現実的な結果を生成するために、デコーダの多数のデノナイズステップが必要となる。
本稿では,高忠実度・高現実性画像圧縮のための一段階拡散を可能にするStableCodecを紹介する。
論文 参考訳(メタデータ) (2025-06-27T07:39:21Z) - DDT: Decoupled Diffusion Transformer [51.84206763079382]
拡散変換器はノイズの多い入力を符号化し、意味成分を抽出し、同じモジュールで高い周波数をデコードする。
textbfcolorddtDecoupled textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
textbfcolorddtTransformer(textbfcolorddtDDT)
論文 参考訳(メタデータ) (2025-04-08T07:17:45Z) - Representing 3D Shapes With 64 Latent Vectors for 3D Diffusion Models [21.97308739556984]
COD-VAEは3D形状を1D潜伏ベクトルからなるCampact集合に符号化する。
その結果,COD-VAEは品質を維持しつつ,ベースラインの16倍の圧縮を実現していることがわかった。
論文 参考訳(メタデータ) (2025-03-11T06:29:39Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - PaGoDA: Progressive Growing of a One-Step Generator from a Low-Resolution Diffusion Teacher [55.22994720855957]
PaGoDAは、ダウンサンプルデータ上でのトレーニング拡散、事前訓練された拡散の蒸留、プログレッシブ超解像という3段階のトレーニングコストを削減した、新しいパイプラインである。
提案されたパイプラインでは、PaGoDAは8倍のサンプルデータで拡散モデルをトレーニングするコストを64倍に削減する。
PaGoDAのパイプラインは、遅延空間で直接適用することができ、遅延拡散モデルで事前訓練されたオートエンコーダと共に圧縮を追加する。
論文 参考訳(メタデータ) (2024-05-23T17:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。