論文の概要: SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2512.11749v1
- Date: Fri, 12 Dec 2025 17:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.860373
- Title: SVG-T2I: Scaling Up Text-to-Image Latent Diffusion Model Without Variational Autoencoder
- Title(参考訳): SVG-T2I:変分オートエンコーダを使わずにテキストから画像への遅延拡散モデルのスケールアップ
- Authors: Minglei Shi, Haolin Wang, Borui Zhang, Wenzhao Zheng, Bohan Zeng, Ziyang Yuan, Xiaoshi Wu, Yuanxing Zhang, Huan Yang, Xintao Wang, Pengfei Wan, Kun Gai, Jie Zhou, Jiwen Lu,
- Abstract要約: SVG-T2Iは,VFM機能領域で直接,高品質なテキスト・画像合成をサポートする。
標準のテキスト-画像拡散パイプラインを利用することで、SVG-T2Iは競争性能が向上し、GenEvalは0.75、DPG-Benchは85.78に達した。
私たちは、オートエンコーダと生成モデルを含むプロジェクトを、トレーニング、推論、評価パイプライン、トレーニング済みウェイトとともに完全にオープンソース化し、表現駆動型視覚生成のさらなる研究を支援します。
- 参考スコア(独自算出の注目度): 90.28800377462197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual generation grounded in Visual Foundation Model (VFM) representations offers a highly promising unified pathway for integrating visual understanding, perception, and generation. Despite this potential, training large-scale text-to-image diffusion models entirely within the VFM representation space remains largely unexplored. To bridge this gap, we scale the SVG (Self-supervised representations for Visual Generation) framework, proposing SVG-T2I to support high-quality text-to-image synthesis directly in the VFM feature domain. By leveraging a standard text-to-image diffusion pipeline, SVG-T2I achieves competitive performance, reaching 0.75 on GenEval and 85.78 on DPG-Bench. This performance validates the intrinsic representational power of VFMs for generative tasks. We fully open-source the project, including the autoencoder and generation model, together with their training, inference, evaluation pipelines, and pre-trained weights, to facilitate further research in representation-driven visual generation.
- Abstract(参考訳): Visual Foundation Model (VFM) に基礎を置いている視覚生成は、視覚的理解、知覚、生成を統合するための非常に有望な統一経路を提供する。
この可能性にもかかわらず、VFM表現空間内での大規模テキスト・画像拡散モデルのトレーニングはほとんど未探索のままである。
このギャップを埋めるために、SVG (Self-supervised representations for Visual Generation) フレームワークをスケールし、SVG-T2Iを提案し、VFM機能ドメインで直接、高品質なテキスト・画像合成をサポートする。
標準のテキスト-画像拡散パイプラインを利用することで、SVG-T2Iは競争性能が向上し、GenEvalは0.75、DPG-Benchは85.78に達した。
この性能は、生成タスクに対するVFMの本質的な表現力を検証する。
私たちは、オートエンコーダと生成モデルを含むプロジェクトを、トレーニング、推論、評価パイプライン、トレーニング済みウェイトとともに完全にオープンソース化し、表現駆動型視覚生成のさらなる研究を支援します。
関連論文リスト
- DuetSVG: Unified Multimodal SVG Generation with Internal Visual Guidance [48.98604326855894]
本稿では,画像トークンと対応するSVGトークンをエンドツーエンドで共同生成する統合マルチモーダルモデルであるDuetSVGを紹介する。
提案手法は,SVGデコードの品質向上のためのガイダンスとして,モデルのネイティブな視覚的予測を活用する新しいテストタイムスケーリング戦略を適用する。
論文 参考訳(メタデータ) (2025-12-11T18:23:03Z) - Visual Generation Tuning [84.50113837230333]
視覚言語モデルにおける視覚生成の基盤となる能力を刺激する新しいパラダイムであるVGT, Visual Generation Tuningを提案する。
画像再構成タスクでは、26.67 PSNRと0.50 rFIDを28倍圧縮比で達成し、特殊VAEよりも優れていた。
提案するVGTは,拡張性を示すとともに,マルチモーダル理解のために訓練されたVLMを視覚的生成能力で実現するためにも有用である。
論文 参考訳(メタデータ) (2025-11-28T18:57:13Z) - Latent Diffusion Model without Variational Autoencoder [78.34722551463223]
SVGは視覚生成のための変分オートエンコーダを持たない新しい潜伏拡散モデルである。
凍結したDINO機能を利用して、明確な意味的識別性を持つ特徴空間を構築する。
迅速な拡散訓練を可能にし、数ステップのサンプリングをサポートし、生成品質を向上させる。
論文 参考訳(メタデータ) (2025-10-17T04:17:44Z) - Rendering-Aware Reinforcement Learning for Vector Graphics Generation [15.547843461605746]
視覚言語モデル(VLM)におけるSVG生成を向上させるRLRF(Reinforcement Learning from Rendering Feedback)を導入する。
入力画像が与えられた場合、モデルがレンダリングされたSVGロールアウトを生成し、元の画像と比較して報酬を計算する。
この視覚的忠実度フィードバックは、より正確で効率的でセマンティックにコヒーレントなSVGを生成するためにモデルを導く。
論文 参考訳(メタデータ) (2025-05-27T06:56:00Z) - Style Customization of Text-to-Vector Generation with Image Diffusion Priors [27.949704002538944]
SVG生成のための新しい2段階スタイルのカスタマイズパイプラインを提案する。
第一段階では、SVGの構造的規則性を保証するため、経路レベルの表現を持つT2V拡散モデルを訓練する。
第2段階では、カスタマイズされたT2Iモデルを蒸留することにより、T2V拡散モデルを異なるスタイルにカスタマイズする。
論文 参考訳(メタデータ) (2025-05-15T17:59:21Z) - IMAGINE-E: Image Generation Intelligence Evaluation of State-of-the-art Text-to-Image Models [52.73820275861131]
テキスト・トゥ・イメージ(T2I)モデルは非常に進歩しており、プロンプト追従と画像生成における印象的な能力を示している。
FLUX.1やIdeogram2.0といった最近のモデルでは、様々な複雑なタスクにおいて例外的な性能を示している。
本研究は,T2Iモデルが汎用ユーザビリティに進化する過程における現状と今後の軌道に関する貴重な知見を提供する。
論文 参考訳(メタデータ) (2025-01-23T18:58:33Z) - NeuralSVG: An Implicit Representation for Text-to-Vector Generation [54.4153300455889]
本稿では,テキストプロンプトからベクトルグラフィックスを生成する暗黙的なニューラル表現であるNeuralSVGを提案する。
生成したSVGの層構造を促進するために,ドロップアウトに基づく正規化手法を導入する。
ニューラルSVGは、構造化された柔軟なSVGを生成する際に、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-01-07T18:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。