論文の概要: RecTok: Reconstruction Distillation along Rectified Flow
- arxiv url: http://arxiv.org/abs/2512.13421v1
- Date: Mon, 15 Dec 2025 15:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-16 17:54:56.717937
- Title: RecTok: Reconstruction Distillation along Rectified Flow
- Title(参考訳): RecTok:リクティファイドフローによるリコンストラクション蒸留
- Authors: Qingyu Shi, Size Wu, Jinbin Bai, Kaidong Yu, Yujing Wang, Yunhai Tong, Xiangtai Li, Xuelong Li,
- Abstract要約: 本稿では2つの重要な革新を通じて高次元視覚トークン化の限界を克服するRecTokを提案する。
提案手法は,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
- 参考スコア(独自算出の注目度): 85.51292475005151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual tokenizers play a crucial role in diffusion models. The dimensionality of latent space governs both reconstruction fidelity and the semantic expressiveness of the latent feature. However, a fundamental trade-off is inherent between dimensionality and generation quality, constraining existing methods to low-dimensional latent spaces. Although recent works have leveraged vision foundation models to enrich the semantics of visual tokenizers and accelerate convergence, high-dimensional tokenizers still underperform their low-dimensional counterparts. In this work, we propose RecTok, which overcomes the limitations of high-dimensional visual tokenizers through two key innovations: flow semantic distillation and reconstruction--alignment distillation. Our key insight is to make the forward flow in flow matching semantically rich, which serves as the training space of diffusion transformers, rather than focusing on the latent space as in previous works. Specifically, our method distills the semantic information in VFMs into the forward flow trajectories in flow matching. And we further enhance the semantics by introducing a masked feature reconstruction loss. Our RecTok achieves superior image reconstruction, generation quality, and discriminative performance. It achieves state-of-the-art results on the gFID-50K under both with and without classifier-free guidance settings, while maintaining a semantically rich latent space structure. Furthermore, as the latent dimensionality increases, we observe consistent improvements. Code and model are available at https://shi-qingyu.github.io/rectok.github.io.
- Abstract(参考訳): 視覚トークン化剤は拡散モデルにおいて重要な役割を果たす。
ラテント空間の次元性は、レコンストラクションの忠実度とラテント特徴の意味表現性の両方を支配している。
しかし、基本的なトレードオフは次元性と生成品質に固有のものであり、既存の手法を低次元の潜在空間に制約する。
近年の研究では、視覚的トークン化のセマンティクスを豊かにし、収束を加速するために視覚基盤モデルを活用しているが、高次元トークン化は依然として低次元モデルよりも優れている。
本研究では,フローセマンティック蒸留とリコンストラクション-アライメント蒸留という2つの重要な革新を通じて,高次元視覚トークン化装置の限界を克服するRecTokを提案する。
我々の重要な洞察は、フローの前方の流れをセマンティックにリッチにすることであり、これは拡散変圧器の訓練空間として機能する。
具体的には,VFMにおける意味情報を,フローマッチングにおける前方流路に抽出する。
また,マスク付き特徴再構成損失を導入することで,セマンティクスをさらに強化する。
我々のRecTokは画像再構成、生成品質、識別性能に優れています。
セマンティックにリッチな潜在空間構造を維持しつつ、分類子なしのガイダンス設定の両方で、gFID-50Kの最先端結果を達成する。
さらに、潜在次元が増加するにつれて、一貫した改善が観察される。
コードとモデルはhttps://shi-qingyu.github.io/rectok.github.ioで公開されている。
関連論文リスト
- VQRAE: Representation Quantization Autoencoders for Multimodal Understanding, Generation and Reconstruction [83.50898344094153]
VQRAEは、イメージ理解のための連続的セマンティック機能と、統一トークン化器内での視覚生成のためのトークンを生成する。
デザインは、多モーダル理解、離散トークンの能力を維持するために、無視可能な意味情報を可能にする。
VQRAEは、視覚的理解、生成、再構築のベンチマークで競合性能を示す。
論文 参考訳(メタデータ) (2025-11-28T17:26:34Z) - Latent Diffusion Model without Variational Autoencoder [78.34722551463223]
SVGは視覚生成のための変分オートエンコーダを持たない新しい潜伏拡散モデルである。
凍結したDINO機能を利用して、明確な意味的識別性を持つ特徴空間を構築する。
迅速な拡散訓練を可能にし、数ステップのサンプリングをサポートし、生成品質を向上させる。
論文 参考訳(メタデータ) (2025-10-17T04:17:44Z) - Diffusion Counterfactuals for Image Regressors [1.534667887016089]
拡散型生成モデルを用いて、画像回帰タスクの反実的説明を生成する2つの方法を提案する。
どちらもCelebA-HQと合成データセット上で現実的でセマンティックでスムーズな偽物を生成する。
回帰反事実に対して,特徴の変化は予測値の領域に依存することがわかった。
論文 参考訳(メタデータ) (2025-03-26T14:42:46Z) - CAM-Seg: A Continuous-valued Embedding Approach for Semantic Image Generation [11.170848285659572]
量子化埋め込みを用いたセグメンテーションマスクのオートエンコーダ精度は連続数値埋め込みよりも8%低い。
セマンティックセグメンテーションのための連続評価組込みフレームワークを提案する。
提案手法では,細粒度のセマンティックな詳細を保存しながら,離散的な潜在表現の必要性を排除している。
論文 参考訳(メタデータ) (2025-03-19T18:06:54Z) - Exploring Representation-Aligned Latent Space for Better Generation [86.45670422239317]
生成性能を改善するために,セマンティックな事前情報を統合するReaLSを導入する。
本研究では、ReaLSでトレーニングされたDETとSiTが、FID測定値の15%改善を実現することを示す。
拡張されたセマンティック潜在空間は、セグメンテーションや深さ推定のようなより知覚的な下流タスクを可能にする。
論文 参考訳(メタデータ) (2025-02-01T07:42:12Z) - CLR-Face: Conditional Latent Refinement for Blind Face Restoration Using
Score-Based Diffusion Models [57.9771859175664]
最近の生成優先法は、有望なブラインドフェイス修復性能を示している。
入力に忠実なきめ細かい顔の詳細を生成することは、依然として難しい問題である。
本稿では,VQGANアーキテクチャの内部に拡散型プライマーを導入し,非破壊な潜伏埋め込みにおける分布の学習に重点を置いている。
論文 参考訳(メタデータ) (2024-02-08T23:51:49Z) - Diffusion Models already have a Semantic Latent Space [7.638042073679074]
凍結事前学習拡散モデルにおいて,非対称な逆過程(Asyrp)を提案する。
h-spaceという名前のセマンティック潜在空間は、セマンティックイメージ操作を調節するための優れた特性を持つ。
さらに、定量化による多目的編集と品質向上のための生成プロセスの原理的設計を導入する。
論文 参考訳(メタデータ) (2022-10-20T02:07:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。