論文の概要: NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices
- arxiv url: http://arxiv.org/abs/2602.06879v1
- Date: Fri, 06 Feb 2026 17:05:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.499214
- Title: NanoFLUX: Distillation-Driven Compression of Large Text-to-Image Generation Models for Mobile Devices
- Title(参考訳): NanoFLUX: モバイルデバイス用大規模テキスト・画像生成モデルの蒸留駆動圧縮
- Authors: Ruchika Chavhan, Malcolm Chadwick, Alberto Gil Couto Pimentel Ramos, Luca Morreale, Mehdi Noroozi, Abhinav Mehrotra,
- Abstract要約: NanoFLUXは17B FLUX.1-Schnellから抽出されたテキストから画像へのフローマッチングモデルである。
約2.5秒で512 x 512の画像を生成する。
- 参考スコア(独自算出の注目度): 8.73500310721293
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large-scale text-to-image diffusion models continue to improve in visual quality, their increasing scale has widened the gap between state-of-the-art models and on-device solutions. To address this gap, we introduce NanoFLUX, a 2.4B text-to-image flow-matching model distilled from 17B FLUX.1-Schnell using a progressive compression pipeline designed to preserve generation quality. Our contributions include: (1) A model compression strategy driven by pruning redundant components in the diffusion transformer, reducing its size from 12B to 2B; (2) A ResNet-based token downsampling mechanism that reduces latency by allowing intermediate blocks to operate on lower-resolution tokens while preserving high-resolution processing elsewhere; (3) A novel text encoder distillation approach that leverages visual signals from early layers of the denoiser during sampling. Empirically, NanoFLUX generates 512 x 512 images in approximately 2.5 seconds on mobile devices, demonstrating the feasibility of high-quality on-device text-to-image generation.
- Abstract(参考訳): 大規模テキスト・画像拡散モデルでは視覚的品質が向上し続けているが、その拡大により最先端のモデルとデバイス上のソリューションとのギャップが拡大している。
このギャップに対処するために,生成品質を維持するためのプログレッシブ圧縮パイプラインを用いて17B FLUX.1-Schnellから抽出した2.4Bテキスト・画像フローマッチングモデルであるNanoFLUXを導入する。
コントリビューションには,(1)拡散変圧器の余剰成分を抽出し,そのサイズを12Bから2Bに減らしたモデル圧縮戦略,(2)高分解能な処理を維持しながら中間ブロックを低分解能のトークンで動作させることにより遅延を低減するResNetベースのトークンダウンサンプリング機構,(3)サンプリング中のデノイザの初期層からの視覚信号を活用する新しいテキストエンコーダ蒸留手法などが含まれている。
実証的に、NanoFLUXはモバイルデバイス上で512 x 512イメージを約2.5秒で生成し、高品質のオンデバイス・テキスト・ツー・イメージ生成の実現可能性を示している。
関連論文リスト
- DeCo: Frequency-Decoupled Pixel Diffusion for End-to-End Image Generation [93.6273078684831]
より効率的な画素拡散パラダイムを追求するために,周波数デカップリング方式の画素拡散フレームワークを提案する。
高速・低周波成分の生成を分離する直感によって, セマンティックガイダンスに基づく高周波細部を生成するために, 軽量画素デコーダを利用する。
実験の結果,DeCoは1.62 (256x256) と2.22 (512x512) の FID を実現した。
論文 参考訳(メタデータ) (2025-11-24T17:59:06Z) - InfGen: A Resolution-Agnostic Paradigm for Scalable Image Synthesis [51.81849724354083]
現在の拡散モデルでは、解像度で計算要求が2倍に増加し、4K画像生成が100秒以上遅れる。
本稿では, 任意の解像度画像を1ステップ生成器を用いて, コンパクトなラテントで復号する手法を提案する。
InfGenは、4K画像生成時間を10秒未満にカットしながら、任意の高解像度の時代に多くのモデルを改善することができる。
論文 参考訳(メタデータ) (2025-09-12T17:48:57Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers [10.84639914909133]
フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。
本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:38:58Z) - MSF: Efficient Diffusion Model Via Multi-Scale Latent Factorize [18.73205699076486]
マルチスケールの潜在因数分解を利用した拡散フレームワークを提案する。
我々のフレームワークは、事前訓練された変分オートエンコーダから遅延する特徴を低周波ベース信号に分解する。
提案アーキテクチャは,残差学習段階におけるサンプリングステップの削減を容易にする。
論文 参考訳(メタデータ) (2025-01-23T03:18:23Z) - MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。
第2のコントリビューションは、ビットトークンを用いた埋め込み不要な画像生成が、ImageNet 256x256ベンチマークで1.52の最先端のFIDを達成することを示した。
論文 参考訳(メタデータ) (2024-09-24T16:12:12Z) - StreamDiffusion: A Pipeline-level Solution for Real-time Interactive Generation [52.56469577812338]
本稿では,インタラクティブな画像生成のためのリアルタイム拡散パイプラインStreamDiffusionを紹介する。
既存の拡散モデルは、テキストや画像プロンプトから画像を作成するのに適しているが、リアルタイムのインタラクションでは不足することが多い。
本稿では,従来のシーケンシャル・デノナイジングをデノナイジング・プロセスに変換する新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-19T18:18:33Z) - Dimensionality-Varying Diffusion Process [52.52681373641533]
拡散モデルは、信号破壊プロセスを逆転して新しいデータを生成することを学習する。
信号分解による前方拡散過程の理論的一般化を行う。
FFHQで訓練された拡散モデルのFIDを,52.40から10.46までの1024Times1024$解像度で改善する。
論文 参考訳(メタデータ) (2022-11-29T09:05:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。