論文の概要: Purrception: Variational Flow Matching for Vector-Quantized Image Generation
- arxiv url: http://arxiv.org/abs/2510.01478v1
- Date: Wed, 01 Oct 2025 21:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.885448
- Title: Purrception: Variational Flow Matching for Vector-Quantized Image Generation
- Title(参考訳): 知覚:ベクトル量子化画像生成のための変分フローマッチング
- Authors: Răzvan-Andrei Matişan, Vincent Tao Hu, Grigory Bartosh, Björn Ommer, Cees G. M. Snoek, Max Welling, Jan-Willem van de Meent, Mohammad Mahdi Derakhshani, Floor Eijkelboom,
- Abstract要約: パーセプション(Purrception)はベクトル量子化画像生成のための変動流マッチング手法である。
本手法は,変分フローマッチングをベクトル量子化潜水器に適用し,コードブックの指標からカテゴリー後部を学習する。
これは連続的手法の幾何学的認識とカテゴリー的アプローチの離散的な監督を組み合わせる。
- 参考スコア(独自算出の注目度): 79.74708247230218
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Purrception, a variational flow matching approach for vector-quantized image generation that provides explicit categorical supervision while maintaining continuous transport dynamics. Our method adapts Variational Flow Matching to vector-quantized latents by learning categorical posteriors over codebook indices while computing velocity fields in the continuous embedding space. This combines the geometric awareness of continuous methods with the discrete supervision of categorical approaches, enabling uncertainty quantification over plausible codes and temperature-controlled generation. We evaluate Purrception on ImageNet-1k 256x256 generation. Training converges faster than both continuous flow matching and discrete flow matching baselines while achieving competitive FID scores with state-of-the-art models. This demonstrates that Variational Flow Matching can effectively bridge continuous transport and discrete supervision for improved training efficiency in image generation.
- Abstract(参考訳): 本稿では,ベクトル量子化画像生成のための変動流マッチング手法であるPurrceptionを紹介する。
本手法は, 連続埋め込み空間における速度場を計算しながら, コードブックインデックス上のカテゴリ後部を学習することにより, ベクトル量子化潜水器に可変フローマッチングを適用する。
これは連続的手法の幾何学的認識とカテゴリー的アプローチの離散的な監督を組み合わせることで、可塑性符号に対する不確実な定量化と温度制御された生成を可能にする。
我々は ImageNet-1k 256x256 生成のパーセプションを評価する。
トレーニングは、最先端モデルと競合するFIDスコアを達成しつつ、連続フローマッチングと離散フローマッチングベースラインの両方よりも早く収束する。
このことは、変分フローマッチングが、画像生成におけるトレーニング効率を改善するために、継続的な輸送と個別の監督を効果的に橋渡しできることを証明している。
関連論文リスト
- Transport Based Mean Flows for Generative Modeling [19.973366424307077]
フローマッチング生成モデルは、連続データ生成の強力なパラダイムとして現れています。
これらのモデルは、多数のシーケンシャルサンプリングステップを必要とするため、推論が遅い。
最近の研究はサンプリングステップの数を減らして推論を加速させようとしている。
論文 参考訳(メタデータ) (2025-09-26T17:12:19Z) - Image Tokenizer Needs Post-Training [76.91832192778732]
本稿では,遅延空間構築と復号化に着目した新しいトークン化学習手法を提案する。
具体的には,トークン化の堅牢性を大幅に向上させる,プラグアンドプレイ型トークン化学習手法を提案する。
生成したトークンと再構成されたトークンの分布差を軽減するために、よく訓練された生成モデルに関するトークン化デコーダをさらに最適化する。
論文 参考訳(メタデータ) (2025-09-15T21:38:03Z) - Graph Flow Matching: Enhancing Image Generation with Neighbor-Aware Flow Fields [7.435063833417364]
フローマッチングはサンプル生成を,データにノイズを伝達する連続時間速度場学習として使用する。
学習速度を反応項に分解する軽量な拡張であるグラフフローマッチングを提案する。
事前訓練された変分オートエンコーダの潜伏空間で作動する。
論文 参考訳(メタデータ) (2025-05-30T10:17:50Z) - Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
任意の制約下で高速かつ高品質な生成を可能にするアルゴリズムを提案する。
推測中、ノイズの多い画像上で計算された勾配更新と、最終的なクリーンな画像で計算されたアップデートとを交換できる。
我々のアプローチは、最先端のトレーニングフリー推論アプローチに匹敵するか、超越した結果をもたらす。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - Improving Consistency Models with Generator-Augmented Flows [16.049476783301724]
一貫性モデルは、ニューラルネットワークの単一前方通過におけるスコアベース拡散の多段階サンプリングを模倣する。
それらは、一貫性の蒸留と一貫性のトレーニングの2つの方法を学ぶことができる。
本稿では,一貫性モデルから得られたノイズデータを対応する出力へ転送する新しい流れを提案する。
論文 参考訳(メタデータ) (2024-06-13T20:22:38Z) - OCAI: Improving Optical Flow Estimation by Occlusion and Consistency Aware Interpolation [55.676358801492114]
本稿では,中間映像フレームと光フローを同時に生成することで,フレームのあいまいさを頑健に支援するOCAIを提案する。
我々は,Sintel や KITTI などの既存のベンチマークにおいて,優れた品質と光フロー精度を実証した。
論文 参考訳(メタデータ) (2024-03-26T20:23:48Z) - Flow Matching in Latent Space [2.9330609943398525]
フローマッチングは、印象的な経験的パフォーマンスを示す生成モデルをトレーニングするフレームワークである。
本稿では,事前学習されたオートエンコーダの潜時空間にフローマッチングを適用し,計算効率を向上させることを提案する。
我々の研究は、条件生成タスクのフローマッチングへの様々な条件の統合における先駆的な貢献である。
論文 参考訳(メタデータ) (2023-07-17T17:57:56Z) - End-to-End Diffusion Latent Optimization Improves Classifier Guidance [81.27364542975235]
拡散潜水剤(DOODL)の直接最適化は,新しいガイダンス手法である。
拡散潜伏剤の最適化によるプラグアンドプレイ誘導を可能にする。
計算と人的評価の指標において、一段階の分類器ガイダンスよりも優れている。
論文 参考訳(メタデータ) (2023-03-23T22:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。