論文の概要: SD3.5-Flash: Distribution-Guided Distillation of Generative Flows
- arxiv url: http://arxiv.org/abs/2509.21318v1
- Date: Thu, 25 Sep 2025 16:07:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:13.032135
- Title: SD3.5-Flash: Distribution-Guided Distillation of Generative Flows
- Title(参考訳): SD3.5-Flash: 生成フローの分散誘導蒸留
- Authors: Hmrishav Bandyopadhyay, Rahim Entezari, Jim Scott, Reshinth Adithyan, Yi-Zhe Song, Varun Jampani,
- Abstract要約: SD3.5-Flashは、高画質の画像生成を消費者デバイスにもたらす、効率的な数ステップ蒸留フレームワークである。
グラデーションノイズを低減するための"タイムステップ共有"と、迅速なアライメントを改善するための"スプリットタイムステップ微調整"の2つの重要なイノベーションを紹介します。
これにより、携帯電話からデスクトップコンピュータまで、あらゆるデバイスへのアクセスが民主化される。
- 参考スコア(独自算出の注目度): 87.45964232927945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present SD3.5-Flash, an efficient few-step distillation framework that brings high-quality image generation to accessible consumer devices. Our approach distills computationally prohibitive rectified flow models through a reformulated distribution matching objective tailored specifically for few-step generation. We introduce two key innovations: "timestep sharing" to reduce gradient noise and "split-timestep fine-tuning" to improve prompt alignment. Combined with comprehensive pipeline optimizations like text encoder restructuring and specialized quantization, our system enables both rapid generation and memory-efficient deployment across different hardware configurations. This democratizes access across the full spectrum of devices, from mobile phones to desktop computers. Through extensive evaluation including large-scale user studies, we demonstrate that SD3.5-Flash consistently outperforms existing few-step methods, making advanced generative AI truly accessible for practical deployment.
- Abstract(参考訳): SD3.5-Flashは、高画質の画像生成を消費者デバイスにもたらす、効率的な数ステップ蒸留フレームワークである。
提案手法は,数ステップ生成に特化して最適化された分布マッチング対象を用いて,計算的に禁止された整流流れモデルを蒸留する。
グラデーションノイズを低減するための"タイムステップ共有"と、迅速なアライメントを改善するための"スプリットタイムステップ微調整"の2つの重要なイノベーションを紹介します。
テキストエンコーダの再構築や特殊な量子化といった包括的なパイプライン最適化と組み合わせることで,ハードウェア構成の異なる高速な生成とメモリ効率の両立を可能にする。
これにより、携帯電話からデスクトップコンピュータまで、あらゆるデバイスへのアクセスが民主化される。
大規模なユーザスタディを含む広範な評価を通じて、SD3.5-Flashが既存の数ステップメソッドより一貫して優れており、高度な生成AIが実用的なデプロイメントに真にアクセス可能であることを実証する。
関連論文リスト
- SwiftVideo: A Unified Framework for Few-Step Video Generation through Trajectory-Distribution Alignment [76.60024640625478]
拡散ベースまたはフローベースモデルは、ビデオ合成において大きな進歩を遂げているが、複数の反復サンプリングステップが必要である。
本稿では, トラジェクトリ保存と分散マッチングの利点を組み合わせた, 統一かつ安定な蒸留フレームワークを提案する。
提案手法は高品質なビデオ生成を維持しつつ,推論ステップの数を著しく削減する。
論文 参考訳(メタデータ) (2025-08-08T07:26:34Z) - Improving Progressive Generation with Decomposable Flow Matching [50.63174319509629]
Decomposable Flow Matching (DFM)は、ビジュアルメディアのプログレッシブな生成のためのシンプルで効果的なフレームワークである。
Imagenet-1k 512pxでは、DFMはベースアーキテクチャよりも35.2%改善され、ベースラインは26.4%向上した。
論文 参考訳(メタデータ) (2025-06-24T17:58:02Z) - On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [3.034710104407876]
In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-03-31T07:19:09Z) - Acc3D: Accelerating Single Image to 3D Diffusion Models via Edge Consistency Guided Score Distillation [49.202383675543466]
本稿では,単一画像から3次元モデルを生成する拡散過程の高速化に取り組むために,Acc3Dを提案する。
数段階の推論によって高品質な再構成を導出するため,ランダムノイズ状態におけるスコア関数の学習を規則化する上で重要な課題を強調した。
論文 参考訳(メタデータ) (2025-03-20T09:18:10Z) - On-device Sora: Enabling Training-Free Diffusion-based Text-to-Video Generation for Mobile Devices [3.034710104407876]
In-device Soraは拡散型オンデバイス・テキスト・ビデオ・ジェネレーションのための最初のモデルフリー・トレーニング・ソリューションである。
また,iPhone 15 ProでオンデバイスSoraを実装し,実験結果から高品質な動画を生成可能であることが示された。
論文 参考訳(メタデータ) (2025-02-05T05:42:29Z) - E2ED^2:Direct Mapping from Noise to Data for Enhanced Diffusion Models [15.270657838960114]
拡散モデルは、視覚的生成モデリングにおけるデファクト・プライマリ・パラダイムとして確立されてきた。
最終生成サンプルから初期雑音への直接最適化を実現する新しいエンドツーエンド学習パラダイムを提案する。
Fr'eche't Inception Distance (FID) と CLIP のスコアは,サンプリングステップが少なくても大幅に向上する。
論文 参考訳(メタデータ) (2024-12-30T16:06:31Z) - FlashOcc: Fast and Memory-Efficient Occupancy Prediction via
Channel-to-Height Plugin [32.172269679513285]
FlashOCCは、高速かつメモリ効率の高い占有率予測を集約する。
チャネル・ツー・ハイト変換は、BEVから出力ロジットを3次元空間に持ち上げるために導入された。
その結果,従来の最先端手法よりもプラグ・アンド・プレイ・パラダイムが優れていることが実証された。
論文 参考訳(メタデータ) (2023-11-18T15:28:09Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。