論文の概要: SRC-Flow: Compact Semantic Representations Enable Normalizing Flows for Image Generation
- arxiv url: http://arxiv.org/abs/2605.18267v2
- Date: Sat, 23 May 2026 08:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 16:32:37.66578
- Title: SRC-Flow: Compact Semantic Representations Enable Normalizing Flows for Image Generation
- Title(参考訳): SRC-Flow:画像生成のための正規化フローを可能にするコンパクトセマンティック表現
- Authors: Longtao Jiang, Jianmin Bao, Zhendong Wang, Xin Tao, Pengfei Wan, Zhihui Li, Xiaojun Chang,
- Abstract要約: 正規化フロー(NF)は、正確な確率と決定論的非可逆サンプリングを提供するが、大規模な画像生成のための拡散モデルに遅れを取っている。
低次元意味空間にコンパクトな高次元RAE特徴にセマンティック表現(SRC)を導入するSRC-Flowを提案する。
SRC-Flowは、計算不要なガイダンスの下で、gFIDスコア1.65と2.07で、フローメソッド間の最先端の生成品質を実現する。
- 参考スコア(独自算出の注目度): 73.51436199324066
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Normalizing flows (NFs) provide exact likelihoods and deterministic invertible sampling, but have historically lagged behind diffusion models for large-scale image generation. We identify a key obstacle: NFs are required to learn a single invertible transport over the full ambient space, making them highly sensitive to high-dimensional representations. This leads to a semantic-capacity mismatch in modern visual representation spaces, where semantic information is compact but encoded in overcomplete features. We propose SRC-Flow, which introduces a Semantic Representation Compressor (SRC) to compact high-dimensional RAE features into a low-dimensional semantic space before flow modeling and preserve reconstruction through the frozen RAE decoder. This compact space reduces the modeling burden of NFs and enables effective likelihood-based generation in semantic representation space. We further adopt constant noise regularization tailored to the fixed unconditional bijection learned by flows. On ImageNet $256 \times 256$ and $512 \times 512$, SRC-Flow achieves state-of-the-art generation quality among normalizing flow methods, with gFID scores of 1.65 and 2.07 under classifier-free guidance, while retaining exact likelihood computation in the compact semantic representation space and deterministic invertible sampling at the flow level. Codes and models will be available at https://github.com/longtaojiang/SRC-Flow.
- Abstract(参考訳): 正規化フロー(NF)は正確な確率と決定論的非可逆サンプリングを提供するが、歴史的に大規模な画像生成のための拡散モデルに遅れを取ってきた。
NFは、全周囲空間上の単一の可逆輸送を学習し、高次元表現に非常に敏感である。
これは、セマンティック情報がコンパクトだがオーバーコンプリートな特徴に符号化される現代の視覚表現空間における意味-能力のミスマッチにつながる。
本稿では,SRC-Flowを提案する。このSRC-Flowは,SRC(Semantic Representation Compressor)を導入し,高次元RAE特徴を低次元意味空間に拡張し,フローモデリングを行い,凍結したRAEデコーダによる再構成を保存する。
このコンパクト空間は、NFのモデリング負担を低減し、意味表現空間における効果的な可能性ベースの生成を可能にする。
さらに,流れから学習した固定的無条件単射に合わせた定値雑音正規化を適用した。
ImageNet 256 \times 256$と512 \times 512$では、SRC-Flowは正規化フロー法で最先端の生成品質を達成し、gFIDスコアは1.65と2.07であり、コンパクトな意味表現空間において正確な精度計算を保ち、フローレベルで決定論的非可逆サンプリングを行う。
コードとモデルはhttps://github.com/longtaojiang/SRC-Flow.comから入手できる。
関連論文リスト
- Asymmetric Flow Models [35.8386911591457]
本稿では,データ予測を全次元に保ちながら低ランク部分空間に雑音予測を制限したランク非対称な速度パラメータ化を提案する。
AsymFlowは、ネットワークアーキテクチャやトレーニング/サンプリング手順を変更することなく、全次元の速度を解析的に回復する。
FLUX.2 klein 9B から微調整された画素 AsymFlow モデルにより,画素空間のテキスト・画像生成技術が新たに確立されたことを示す。
論文 参考訳(メタデータ) (2026-05-13T03:58:01Z) - DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders [74.72147962028265]
表現オートエンコーダ(RAE)は、ImageNet上で拡散モデリングにおいて明確な利点を示している。
本稿では,このフレームワークが大規模でフリーフォームなテキスト・ツー・イメージ(T2I)生成に拡張できるかどうかを検討する。
論文 参考訳(メタデータ) (2026-01-22T18:58:16Z) - Boundary-aware Decoupled Flow Networks for Realistic Extreme Rescaling [49.215957313126324]
Invertible rescaling Network (IRN) やgenerative adversarial Network (GAN) などを含む最近の生成手法は、画像再スケーリングにおいて例外的な性能を示した。
しかし、IRNベースの手法は過度に滑らかな結果を生成する傾向にあり、一方、GANベースの手法は偽の細部を容易に生成する。
本稿では,現実的かつ視覚的に満足な結果を生成するために,境界対応デカップリングフローネットワーク(BDFlow)を提案する。
論文 参考訳(メタデータ) (2024-05-05T14:05:33Z) - Diffusion-Aided Joint Source Channel Coding For High Realism Wireless Image Transmission [24.372996233209854]
DiffJSCCは条件拡散復調法により高現実性画像を生成する新しいフレームワークである。
768x512ピクセルのコダック画像を3072のシンボルで再現できる。
論文 参考訳(メタデータ) (2024-04-27T00:12:13Z) - Binarized Spectral Compressive Imaging [59.18636040850608]
ハイパースペクトル画像(HSI)再構成のための既存のディープラーニングモデルは、優れた性能を実現するが、膨大なメモリと計算資源を持つ強力なハードウェアを必要とする。
本稿では,BiSRNet(Biarized Spectral-Redistribution Network)を提案する。
BiSRNetは,提案手法を用いてベースモデルのバイナライズを行う。
論文 参考訳(メタデータ) (2023-05-17T15:36:08Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。