論文の概要: SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation
- arxiv url: http://arxiv.org/abs/2603.15150v1
- Date: Mon, 16 Mar 2026 11:44:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.182329
- Title: SNCE: Geometry-Aware Supervision for Scalable Discrete Image Generation
- Title(参考訳): SNCE: スケーラブル離散画像生成のための幾何認識スーパービジョン
- Authors: Shufan Li, Jiuxiang Gu, Kangning Liu, Zhe Lin, Aditya Grover, Jason Kuen,
- Abstract要約: Neighbor Cross Entropy Minimization (SNCE)は、大容量の離散画像生成装置の最適化課題に対処するために設計された、新しいトレーニング目標である。
我々は,クラス条件のImageNet-256生成,大規模テキスト・画像合成,画像編集タスクについて実験を行った。
その結果,SNCEは標準のクロスエントロピー目標と比較してコンバージェンス速度と全体の生成品質を著しく向上することがわかった。
- 参考スコア(独自算出の注目度): 64.29376407025768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advancements in discrete image generation showed that scaling the VQ codebook size significantly improves reconstruction fidelity. However, training generative models with a large VQ codebook remains challenging, typically requiring larger model size and a longer training schedule. In this work, we propose Stochastic Neighbor Cross Entropy Minimization (SNCE), a novel training objective designed to address the optimization challenges of large-codebook discrete image generators. Instead of supervising the model with a hard one-hot target, SNCE constructs a soft categorical distribution over a set of neighboring tokens. The probability assigned to each token is proportional to the proximity between its code embedding and the ground-truth image embedding, encouraging the model to capture semantically meaningful geometric structure in the quantized embedding space. We conduct extensive experiments across class-conditional ImageNet-256 generation, large-scale text-to-image synthesis, and image editing tasks. Results show that SNCE significantly improves convergence speed and overall generation quality compared to standard cross-entropy objectives.
- Abstract(参考訳): 離散画像生成の最近の進歩は、VQコードブックサイズを拡大することで、再構成精度が大幅に向上することを示した。
しかしながら、大規模なVQコードブックによる生成モデルのトレーニングは、通常、より大きなモデルサイズとより長いトレーニングスケジュールを必要とするため、依然として困難である。
本研究では,大規模な離散画像生成装置の最適化課題に対処するために,SNCE(Stochastic Neighbor Cross Entropy Minimization)を提案する。
SNCEはハードな1ホットターゲットでモデルを監督する代わりに、隣接するトークンの集合にソフトなカテゴリ分布を構築する。
各トークンに割り当てられた確率は、そのコード埋め込みと接地真実像埋め込みの近接に比例し、量子化された埋め込み空間において意味論的に意味のある幾何学的構造を捉えることをモデルに促す。
我々は,クラス条件の ImageNet-256 生成,大規模テキスト・画像合成,画像編集タスクの広範な実験を行う。
その結果,SNCEは標準のクロスエントロピー目標と比較してコンバージェンス速度と全体の生成品質を著しく向上することがわかった。
関連論文リスト
- GloTok: Global Perspective Tokenizer for Image Reconstruction and Generation [51.95701097588426]
トークン化された特徴のより均一な意味分布をモデル化するために,Global Perspective Tokenizer(GloTok)を導入する。
量子化による再構成誤差を最小限に抑えるために, 微細な細部を復元するために, 残差学習モジュールを提案する。
標準のImageNet-1kベンチマーク実験により,提案手法が最先端の復元性能と生成品質を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-18T06:40:26Z) - Boosting Generative Image Modeling via Joint Image-Feature Synthesis [15.133906625258797]
低レベル画像潜在者を共同でモデル化するために拡散モデルを活用することで、ギャップをシームレスに橋渡しする新しい生成画像モデリングフレームワークを提案する。
我々の潜在セマンティック拡散アプローチは、純雑音からコヒーレントな画像-特徴対を生成することを学ぶ。
複雑な蒸留目的の必要をなくすことで、我々の統一設計は訓練を単純化し、強力な新しい推論戦略である表現誘導を解き放つ。
論文 参考訳(メタデータ) (2025-04-22T17:41:42Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.57727062920458]
本稿では,非自己回帰型マスク画像モデリング(MIM)をSDXLのような最先端拡散モデルに匹敵するレベルまで高めるMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いる。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Unlocking Pre-trained Image Backbones for Semantic Image Synthesis [29.688029979801577]
本稿では,現実的な画像を生成するセマンティック画像合成のための新しい種類のGAN識別器を提案する。
DP-SIMSをダブした本モデルでは,ADE-20K,COCO-Stuff,Cityscapesの入力ラベルマップと画像品質と一貫性の両面から,最新の結果が得られる。
論文 参考訳(メタデータ) (2023-12-20T09:39:19Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。