論文の概要: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models
- arxiv url: http://arxiv.org/abs/2510.18457v2
- Date: Mon, 03 Nov 2025 03:48:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:22.336498
- Title: Vision Foundation Models Can Be Good Tokenizers for Latent Diffusion Models
- Title(参考訳): ビジョンファウンデーションモデルは、潜在拡散モデルに適したトケナイザになり得る
- Authors: Tianci Bi, Xiaoyi Zhang, Yan Lu, Nanning Zheng,
- Abstract要約: Vision Foundation Model Variational Autoencoder (VFM-VAE) は、VFMのセマンティックフォーカスとピクセルレベルの忠実さの必要性の間の固有の緊張を解決するために設計された。
我々のシステムは80エポックで2.20のgFID(w/o CFG)に達する(先行トークン化器の10倍の高速化)。
- 参考スコア(独自算出の注目度): 45.63522160275318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Latent Diffusion Models (LDMs) is critically dependent on the quality of their visual tokenizer. While recent works have explored incorporating Vision Foundation Models (VFMs) via distillation, we identify a fundamental flaw in this approach: it inevitably weakens the robustness of alignment with the original VFM, causing the aligned latents to deviate semantically under distribution shifts. In this paper, we bypass distillation by proposing a more direct approach: Vision Foundation Model Variational Autoencoder (VFM-VAE). To resolve the inherent tension between the VFM's semantic focus and the need for pixel-level fidelity, we redesign the VFM-VAE decoder with Multi-Scale Latent Fusion and Progressive Resolution Reconstruction blocks, enabling high-quality reconstruction from spatially coarse VFM features. Furthermore, we provide a comprehensive analysis of representation dynamics during diffusion training, introducing the proposed SE-CKNNA metric as a more precise tool for this diagnosis. This analysis allows us to develop a joint tokenizer-diffusion alignment strategy that dramatically accelerates convergence. Our innovations in tokenizer design and training strategy lead to superior performance and efficiency: our system reaches a gFID (w/o CFG) of 2.20 in merely 80 epochs (a 10x speedup over prior tokenizers). With continued training to 640 epochs, it further attains a gFID (w/o CFG) of 1.62, establishing direct VFM integration as a superior paradigm for LDMs.
- Abstract(参考訳): 遅延拡散モデル(LDM)の性能は、視覚的トークン化器の品質に大きく依存する。
近年の研究では、蒸留によるビジョン・ファンデーション・モデル(VFM)の導入について検討されているが、本手法の根本的な欠陥が明らかになっている。
本稿では,より直接的なアプローチであるVision Foundation Model Variational Autoencoder (VFM-VAE)を提案することにより,蒸留をバイパスする。
VFMのセマンティック・フォーカスと画素レベルの忠実さの必要性の間の固有の緊張を解決するため、VFM-VAEデコーダをマルチスケールラテント・フュージョンとプログレッシブ・コンストラクション・コンストラクションブロックで再設計し、空間的に粗いVFM特徴から高品質な再構成を可能にする。
さらに,拡散訓練中の表現力学を包括的に解析し,SE-CKNNA法を診断のより正確なツールとして提案した。
この分析により,コンバージェンスを劇的に加速するジョイント・トークン・拡散アライメント戦略を開発することができる。
トークン化器の設計とトレーニング戦略における我々の革新は、優れたパフォーマンスと効率をもたらす。我々のシステムは、たった80エポック(以前のトークン化器の10倍のスピードアップ)で2.20のgFID(w/o CFG)に達する。
640エポックのトレーニングを継続し、さらに1.62のgFID(w/o CFG)を獲得し、直接VFM統合をLCMの優れたパラダイムとして確立した。
関連論文リスト
- Modeling Cross-vision Synergy for Unified Large Vision Model [130.37489011094036]
PolyVは、アーキテクチャレベルとトレーニングレベルの両方で、クロスビジョンのシナジーを実現する統一された大型ビジョンモデルである。
PolyVは既存のモデルを一貫して上回り、バックボーンの10%以上の平均的な改善を実現している。
論文 参考訳(メタデータ) (2026-03-03T22:44:43Z) - DINO-SAE: DINO Spherical Autoencoder for High-Fidelity Image Reconstruction and Generation [47.409626500688866]
本稿では,DINO Spherical Autoencoder(DINO-SAE)について述べる。
提案手法は, 既修のVFMと強いセマンティックアライメントを維持しつつ, 0.37 rFID と 26.2 dB PSNR に到達し, 最先端の再現性を実現する。
論文 参考訳(メタデータ) (2026-01-30T12:25:34Z) - AnomalyVFM -- Transforming Vision Foundation Models into Zero-Shot Anomaly Detectors [6.6016630449883955]
Anomaly VFMは、任意の事前訓練されたVFMを強力なゼロショット・アノマリー検出器に変えるフレームワークである。
提案手法は,頑健な3段階合成データセット生成手法とパラメータ効率適応機構を組み合わせたものである。
9つの異なるデータセットの平均画像レベルAUROCは94.1%であり、以前の手法を3.3%上回っている。
論文 参考訳(メタデータ) (2026-01-28T12:02:58Z) - Boosting Latent Diffusion Models via Disentangled Representation Alignment [23.13416934016185]
世代フレンドリーなVAEを追求するために、近年の研究では、VAEのアライメントアライメントターゲットとしてVision Foundation Modelsを活用することを検討している。
本稿では,意味的非絡み付きVAE(Send-VAE)を提案する。
提案手法では,VAEラテントを変換する非線形マッパーネットワークを用いて,属性レベルの不絡合と高レベルのセマンティクスのギャップを埋めるために,VFMと整列する。
論文 参考訳(メタデータ) (2026-01-09T14:54:30Z) - Rethinking Infrared Small Target Detection: A Foundation-Driven Efficient Paradigm [17.63632082331749]
大規模視覚基盤モデル(VFM)は、多様な視覚領域にまたがる強力な一般化を示すが、単一フレーム赤外線小目標(SIRST)検出の可能性は、まだ明らかにされていない。
本稿では,既存のエンコーダデコーダベースの手法にシームレスに適応できるFDEP(Foundation-Driven Efficient Paradigm)を提案する。
論文 参考訳(メタデータ) (2025-12-05T08:12:35Z) - Large Scale Diffusion Distillation via Score-Regularized Continuous-Time Consistency [60.74505433956616]
連続時間一貫性モデル(sCM)は理論的に原理化され、学術規模の拡散を加速するために実証的に強力である。
まず並列性互換なFlashAttention-2 JVPカーネルを開発し、100億以上のパラメータと高次元ビデオタスクを持つモデル上でsCMトレーニングを可能にする。
本稿では, スコア蒸留を長軸正則化器として組み込んだスコア規則化連続時間一貫性モデル(rCM)を提案する。
論文 参考訳(メタデータ) (2025-10-09T16:45:30Z) - Unleashing Vision Foundation Models for Coronary Artery Segmentation: Parallel ViT-CNN Encoding and Variational Fusion [12.839049648094893]
冠動脈セグメンテーションは冠動脈疾患(CAD)のコンピュータ診断に重要である
並列符号化アーキテクチャを用いて,視覚基盤モデル(VFM)のパワーを利用する新しいフレームワークを提案する。
提案手法は, 精度の高い冠動脈セグメンテーションにおいて, 最先端の手法よりも優れ, 優れた性能を発揮する。
論文 参考訳(メタデータ) (2025-07-17T09:25:00Z) - Vision Foundation Models as Effective Visual Tokenizers for Autoregressive Image Generation [66.73899356886652]
我々は、事前訓練された視覚基盤モデルの上に画像トークン化器を直接構築する。
提案する画像トークンーであるVFMTokは、画像再構成と生成品質を大幅に改善する。
ImageNetベンチマークで2.07のgFIDを達成することで、自動回帰(AR)生成をさらに強化する。
論文 参考訳(メタデータ) (2025-07-11T09:32:45Z) - Chain-of-Focus: Adaptive Visual Search and Zooming for Multimodal Reasoning via RL [70.1326027641056]
視覚言語モデル(VLM)は、様々なコンピュータビジョンタスクにおいて印象的な性能を達成している。
本稿では,キー画像領域に適応的な焦点付けとズームインを行うことができるChain-of-Focus(CoF)手法を提案する。
教師付き微調整と強化学習を含む2段階の訓練パイプラインを提案する。
論文 参考訳(メタデータ) (2025-05-21T12:18:15Z) - Reconstruction vs. Generation: Taming Optimization Dilemma in Latent Diffusion Models [33.519892081718716]
本稿では,視覚トークン化器のトレーニングにおいて,潜在空間と事前学習された視覚基盤モデルとの整合性を提案する。
提案するVA-VAEは遅延拡散モデルの再構成世代フロンティアを著しく拡張する。
私たちは、LightningDiTと呼ばれるトレーニング戦略とアーキテクチャ設計を改善した拡張DiTベースラインを構築します。
論文 参考訳(メタデータ) (2025-01-02T18:59:40Z) - Model Inversion Attacks Through Target-Specific Conditional Diffusion Models [54.69008212790426]
モデル反転攻撃(MIA)は、ターゲット分類器のトレーニングセットからプライベートイメージを再構築することを目的としており、それによってAIアプリケーションにおけるプライバシー上の懸念が高まる。
従来のGANベースのMIAは、GANの固有の欠陥と潜伏空間における最適化の偏りにより、劣った遺伝子的忠実度に悩まされる傾向にある。
これらの問題を緩和するために拡散モデル反転(Diff-MI)攻撃を提案する。
論文 参考訳(メタデータ) (2024-07-16T06:38:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。