Fugu-MT 論文翻訳(概要): LSSGen: Leveraging Latent Space Scaling in Flow and Diffusion for Efficient Text to Image Generation

論文の概要: LSSGen: Leveraging Latent Space Scaling in Flow and Diffusion for Efficient Text to Image Generation

arxiv url: http://arxiv.org/abs/2507.16154v1
Date: Tue, 22 Jul 2025 02:05:21 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-23 21:34:13.930976
Title: LSSGen: Leveraging Latent Space Scaling in Flow and Diffusion for Efficient Text to Image Generation
Title（参考訳）: LSSGen: 効率的なテキストから画像生成のためのフローと拡散における遅延空間スケーリングの活用
Authors: Jyun-Ze Tang, Chih-Fan Hsu, Jeng-Lin Li, Ming-Ching Chang, Wei-Chao Chen,
Abstract要約: 合成を高速化するための一般的な戦略は、低分解能で早期に復調を行うことである。ピクセル空間におけるダウンスケールとアップスケールの伝統的な手法は、しばしばアーティファクトや歪みをもたらす。本稿では,bf遅延空間スケーリング生成(LSSGen)を提案する。
参考スコア（独自算出の注目度）: 14.423622700472892
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Flow matching and diffusion models have shown impressive results in text-to-image generation, producing photorealistic images through an iterative denoising process. A common strategy to speed up synthesis is to perform early denoising at lower resolutions. However, traditional methods that downscale and upscale in pixel space often introduce artifacts and distortions. These issues arise when the upscaled images are re-encoded into the latent space, leading to degraded final image quality. To address this, we propose {\bf Latent Space Scaling Generation (LSSGen)}, a framework that performs resolution scaling directly in the latent space using a lightweight latent upsampler. Without altering the Transformer or U-Net architecture, LSSGen improves both efficiency and visual quality while supporting flexible multi-resolution generation. Our comprehensive evaluation covering text-image alignment and perceptual quality shows that LSSGen significantly outperforms conventional scaling approaches. When generating $1024^2$ images at similar speeds, it achieves up to 246\% TOPIQ score improvement.
Abstract（参考訳）: フローマッチングと拡散モデルはテキスト・画像生成において顕著な結果を示し、反復的復調過程を通じてフォトリアリスティックな画像を生成する。合成を高速化するための一般的な戦略は、低分解能で早期に復調を行うことである。しかし、ピクセル空間におけるダウンスケールとアップスケールの伝統的な手法は、しばしばアーティファクトや歪みをもたらす。これらの問題は、アップスケールされたイメージが潜在空間に再エンコードされたときに起こり、最終的な画質が劣化する。そこで我々は,軽量の潜時アップサンプラーを用いて,潜時空間における分解能スケーリングを直接行うフレームワークであるLSSGenを提案する。 TransformerやU-Netアーキテクチャを変更することなく、LSSGenはフレキシブルなマルチ解像度生成をサポートしながら、効率と視覚的品質の両方を改善している。テキスト画像のアライメントと知覚的品質を包括的に評価した結果,LSSGenは従来のスケーリング手法よりも優れていた。 1024^2$の画像を同じ速度で生成すると、最大246\%のTOPIQスコアが向上する。

関連論文リスト

HMAR: Efficient Hierarchical Masked Auto-Regressive Image Generation [91.08481618973111]
Visual Auto-Regressive Modeling (VAR)は、自己回帰画像モデルと拡散モデルの間の速度と品質のギャップを埋めることに約束している。高速サンプリングで高品質な画像を生成するために階層型マスク付き自己回帰モデリング(HMAR)を導入する。 HMARはマルコフ過程として次のスケールの予測を再構成し、各解像度スケールの予測は直前のトークンにのみ条件付けされる。
論文参考訳（メタデータ） (2025-06-04T20:08:07Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
GigaTok: Scaling Visual Tokenizers to 3 Billion Parameters for Autoregressive Image Generation [62.77721499671665]
視覚トークン化のスケーリングにおいて、画像再構成、生成、表現学習を改善するための最初のアプローチであるGigaTokを紹介する。我々は、遅延空間の増大する複雑さを、再生と世代ジレンマの主な要因とみなす。数十億ドルのパラメータにスケールアップすることで、GigaTokは、再構築、下流のAR生成、下流のAR表現品質における最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2025-04-11T17:59:58Z)
Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文参考訳（メタデータ） (2025-03-27T09:08:39Z)
NFIG: Autoregressive Image Generation with Next-Frequency Prediction [50.69346038028673]
textbfNext-textbfFrequency textbfImage textbfGeneration (textbfNFIG) は、画像生成プロセスを複数の周波数誘導段階に分解する新しいフレームワークである。提案手法では,まず低周波成分を生成し,より少ないトークンで大域構造を確立する。
論文参考訳（メタデータ） (2025-03-10T08:59:10Z)
Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文参考訳（メタデータ） (2025-02-20T18:45:44Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
Timestep-Aware Diffusion Model for Extreme Image Rescaling [47.89362819768323]
本稿では,時間認識拡散モデル(TADM)と呼ばれる,画像再スケーリングのための新しいフレームワークを提案する。 TADMは、事前訓練されたオートエンコーダの潜在空間で再スケーリング操作を行う。これは、事前訓練されたテキスト・ツー・イメージ拡散モデルによって学習された強力な自然画像の先行を効果的に活用する。
論文参考訳（メタデータ） (2024-08-17T09:51:42Z)
HyperSpace: Hypernetworks for spacing-adaptive image segmentation [0.05958478403940788]
本稿では,ハイパーネットを用いたボクセル間隔のセグメンテーションモデルを提案する。当社のアプローチでは,画像のネイティブ解像度や,ハードウェアや時間制約に調整された解像度で,推論時に画像の処理が可能である。
論文参考訳（メタデータ） (2024-07-04T07:09:23Z)
Image-GS: Content-Adaptive Image Representation via 2D Gaussians [52.598772767324036]
本稿では,2次元ガウス放射率に基づくコンテンツ適応型画像表現であるImage-GSを紹介する。リアルタイム使用のためにハードウェアフレンドリーな高速アクセスをサポートし、ピクセルをデコードするためには0.3KのMACしか必要としない。テクスチャ圧縮、セマンティクス対応圧縮、共同画像圧縮と復元など、いくつかのアプリケーションでその汎用性を実証する。
論文参考訳（メタデータ） (2024-07-02T00:45:21Z)
Alleviating Distortion in Image Generation via Multi-Resolution Diffusion Models and Time-Dependent Layer Normalization [26.926712014346432]
本稿では,新しいマルチレゾリューションネットワークと時間依存層正規化を統合することで,拡散モデルの革新的拡張を提案する。提案手法の有効性は,ImageNet 256 x 256で1.70,ImageNet 512 x 512で2.89の新しい最先端FIDスコアを設定することで,クラス条件のImageNet生成ベンチマークで実証される。
論文参考訳（メタデータ） (2024-06-13T17:59:58Z)
Arbitrary-Scale Image Generation and Upsampling using Latent Diffusion Model and Implicit Neural Decoder [29.924160271522354]
超解像度(SR)と画像生成はコンピュータビジョンにおいて重要なタスクであり、現実世界のアプリケーションで広く採用されている。しかし、既存のほとんどの手法は、固定スケールの倍率でのみ画像を生成し、過度なスムーシングやアーティファクトに悩まされている。最も関連する研究は、インプリシット神経表現(INR)をデノナイズ拡散モデルに適用し、連続分解能で多種多様で高品質なSR結果を得た。任意のスケールで入力画像の超解像やランダムノイズから生成できる新しいパイプラインを提案する。
論文参考訳（メタデータ） (2024-03-15T12:45:40Z)
Efficient texture-aware multi-GAN for image inpainting [5.33024001730262]
近年のGAN (Generative Adversarial Network) のインペイント手法は顕著に改善されている。本稿では,性能とレンダリング効率の両方を改善するマルチGANアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-09-30T14:58:03Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。