論文の概要: Efficient Image Synthesis with Sphere Latent Encoder
- arxiv url: http://arxiv.org/abs/2605.15592v1
- Date: Fri, 15 May 2026 04:03:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.165955
- Title: Efficient Image Synthesis with Sphere Latent Encoder
- Title(参考訳): 球遅延エンコーダを用いた効率的な画像合成
- Authors: Tung Do, Thuan Hoang Nguyen, Hao Li,
- Abstract要約: 整合性や平均フローに基づく手法によってサンプリングステップの数を著しく削減するなど,画像生成は急速に進展している。
Sphereは,数ステップで高品質なイメージを生成する,最近の代替手段だ。
我々は、このフレームワークを固定された事前訓練された画像エンコーダと、完全に球形潜在空間で訓練された独立した潜在聴覚モデルに分離する。
In Animal-Faces, Oxford-Flowers and ImageNet-1K datasets, our method are significantlyforms Sphere in generation quality and inference speed。
- 参考スコア(独自算出の注目度): 9.381297061959112
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Few-step image generation has seen rapid progress, with consistency and meanflow-based methods significantly reducing the number of sampling steps. Despite their low inference cost, these approaches often suffer from training instability and limited scalability. Sphere Encoder is a recent alternative that produces high-quality images in only a few steps; however, it requires repeated transitions between the pixel space and latent space during inference while jointly optimizing reconstruction and generation within a single architecture. This design leads to computational inefficiency and objective conflict between reconstruction and generation. To address these limitations, we decouple the framework into a fixed pretrained image encoder and a separate latent denoising model trained entirely in a spherical latent space. Our approach eliminates repeated pixel-space operations during training and inference, improving efficiency and allowing reconstruction and generation to specialize independently. On Animal-Faces, Oxford-Flowers and ImageNet-1K datasets, our method significantly outperforms Sphere Encoder in both generation quality and inference speed, while achieving competitive results against strong few-step and multi-step baselines.
- Abstract(参考訳): 整合性や平均フローに基づく手法によってサンプリングステップの数を著しく削減するなど,画像生成は急速に進展している。
推論コストが低いにもかかわらず、これらのアプローチはトレーニングの不安定さとスケーラビリティの制限に悩まされることが多い。
球エンコーダ(Sphere Encoder)は、数ステップで高品質な画像を生成する最近の代替手段であるが、単一のアーキテクチャ内で再構成と生成を共同で最適化しながら、推論中に画素空間と潜時空間の間で繰り返し遷移する必要がある。
この設計は、再構成と生成の間の計算の非効率性と客観的な衝突につながる。
これらの制約に対処するため、我々はフレームワークを固定された事前訓練されたイメージエンコーダと、完全に球状ラテント空間で訓練された独立したラテント復調モデルに分離する。
提案手法は, トレーニングや推論中に繰り返し発生するピクセル空間操作を排除し, 効率を向上し, 再構成と生成を独立して行うことができる。
In Animal-Faces, Oxford-Flowers and ImageNet-1K datas, our method are significantlyforms Sphere Encoder in generation quality and inference speed, while achieved competitive results against strong few-step and multi-step baselines。
関連論文リスト
- Accelerating Diffusion Decoders via Multi-Scale Sampling and One-Step Distillation [9.199518837644424]
拡散型デコーダは画像トークン化において,高忠実度で遅延表現から画像を再構成するために採用されている。
この非効率性に対処するための2段階の加速フレームワークを導入する。
各スケールで拡散復号器を1ステップの復号化モデルに蒸留し,高速かつ高品質な再構成を可能にする。
論文 参考訳(メタデータ) (2026-03-20T02:24:58Z) - Image Generation with a Sphere Encoder [52.086777706390706]
Sphereは、単一のフォワードパスで画像を生成することができる効率的な生成フレームワークである。
我々のアプローチは、球面潜在空間に一様にマッピングするエンコーダと、ランダム潜在ベクトルを画像空間にマッピングするデコーダを学習することで機能する。
論文 参考訳(メタデータ) (2026-02-16T18:59:57Z) - Latent Forcing: Reordering the Diffusion Trajectory for Pixel-Space Image Generation [36.41177812868683]
遅延拡散モデルは高品質な画像を生成するのに優れるが、エンドツーエンドのモデリングの利点は失われる。
本稿では,生の自然画像上での潜伏拡散の効率性を実現するため,既存のアーキテクチャを簡易に修正した潜伏強制法を提案する。
Latent Forcingは、我々の計算スケールで拡散トランスフォーマーベースのピクセル生成のための新しい最先端を実現する。
論文 参考訳(メタデータ) (2026-02-11T22:09:58Z) - SFTok: Bridging the Performance Gap in Discrete Tokenizers [72.9996757048065]
複数ステップの反復機構を組み込んだ離散トークン化機構である textbfSFTok を提案する。
画像当たり64トークンの高速圧縮速度で、SFTokはImageNetの最先端の再構築品質を達成する。
論文 参考訳(メタデータ) (2025-12-18T18:59:04Z) - Fast constrained sampling in pre-trained diffusion models [80.99262780028015]
任意の制約下で高速で高品質な生成を可能にするアルゴリズムを提案する。
我々の手法は、最先端のトレーニングフリー推論手法に匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - SpotDiffusion: A Fast Approach For Seamless Panorama Generation Over Time [7.532695984765271]
生成モデルを用いて高解像度画像を生成する新しい手法を提案する。
提案手法は,時間とともに重なりのないデノベーションウィンドウをシフトさせ,一段階のシームが次回修正されるようにする。
提案手法は計算効率の向上や推論時間の高速化など,いくつかの重要な利点を提供する。
論文 参考訳(メタデータ) (2024-07-22T09:44:35Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。