論文の概要: 1.58-bit FLUX
- arxiv url: http://arxiv.org/abs/2412.18653v1
- Date: Tue, 24 Dec 2024 19:00:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-30 17:29:25.218409
- Title: 1.58-bit FLUX
- Title(参考訳): 1.58ビットFLUX
- Authors: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen,
- Abstract要約: 我々は、最先端のテキスト・画像生成モデルFLUX.1-devを量子化する最初の成功例である1.58ビットFLUXを提案する。
本手法は,FLUX.1-devモデルからの自己スーパービジョンのみに依存して,画像データにアクセスすることなく動作する。
- 参考スコア(独自算出の注目度): 22.167935142862287
- License:
- Abstract: We present 1.58-bit FLUX, the first successful approach to quantizing the state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance for generating 1024 x 1024 images. Notably, our quantization method operates without access to image data, relying solely on self-supervision from the FLUX.1-dev model. Additionally, we develop a custom kernel optimized for 1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x reduction in inference memory, and improved inference latency. Extensive evaluations on the GenEval and T2I Compbench benchmarks demonstrate the effectiveness of 1.58-bit FLUX in maintaining generation quality while significantly enhancing computational efficiency.
- Abstract(参考訳): 我々は、1.58ビット重み(すなわち {-1, 0, +1} の値)を用いて、1024 x 1024 画像を生成するための同等の性能を維持しながら、最先端のテキスト・画像生成モデル FLUX.1-dev の量子化に成功した最初のアプローチである 1.58-bit FLUX を提案する。
特に、FLUX.1-devモデルからの自己超越にのみ依存して、画像データにアクセスせずに量子化を行う。
さらに,1.58ビット演算に最適化されたカスタムカーネルを開発し,モデルストレージの7.7倍の削減,推論メモリの5.1倍の削減,推論遅延の改善を実現した。
GenEval と T2I Compbench ベンチマークの大規模な評価は、生成品質を維持する上で 1.58 ビット FLUX の有効性を示し、計算効率を著しく向上させた。
関連論文リスト
- Adversarial Score identity Distillation: Rapidly Surpassing the Teacher in One Step [64.53013367995325]
生成品質と蒸留効率を向上させるSiDA(SiD with Adversarial Loss)を導入する。
SiDAは実画像と敵対的損失を取り入れており、実画像とSiDによって生成された画像を区別することができる。
SiDAは、スクラッチから蒸留した場合、前者よりもかなり早く収束する。
論文 参考訳(メタデータ) (2024-10-19T00:33:51Z) - Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models [7.254959022456085]
一貫性モデル(CM)は、高速サンプリングのための拡散ベース生成モデルの強力なクラスである。
既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。
本稿では,拡散モデルとCMの過去のパラメータ化を統一し,不安定性の根本原因を同定する簡易な理論フレームワークを提案する。
CIFAR-10では2.06点、ImageNet 64x64では1.48点、ImageNet 512x512では1.88点のFIDスコアを達成し、FIDスコアの差を狭める。
論文 参考訳(メタデータ) (2024-10-14T20:43:25Z) - ViT-1.58b: Mobile Vision Transformers in the 1-bit Era [27.74281483852495]
本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。
CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
論文 参考訳(メタデータ) (2024-06-26T04:01:19Z) - BitNet b1.58 Reloaded: State-of-the-art Performance Also on Smaller Networks [2.2300270962881075]
本研究では,100Kから48Mパラメータの小さな言語と視覚モデルに対する1.58ビットの量子化について検討する。
我々は、量子化プロセスにおける平均よりも中央値に依存するビットネットb1.58の変種を導入する。
論文 参考訳(メタデータ) (2024-06-24T20:55:36Z) - An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。
TiTokは最先端のアプローチと競合するパフォーマンスを実現している。
我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文 参考訳(メタデータ) (2024-06-11T17:59:56Z) - Achieving Pareto Optimality using Efficient Parameter Reduction for DNNs in Resource-Constrained Edge Environment [1.9055921262476347]
本稿では,既存のDeep Neural Network (DNN) の最適化を提案する。
精度を犠牲にすることなくモデルサイズを縮小し、トレーニング中のメモリ使用量を削減できるXceptionの効率的なパラメータ削減戦略を実装した。
論文 参考訳(メタデータ) (2024-03-14T19:40:58Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - On Distillation of Guided Diffusion Models [94.95228078141626]
そこで本研究では,分類器を含まない誘導拡散モデルから抽出し易いモデルへ抽出する手法を提案する。
画素空間上で訓練された標準拡散モデルに対して,本手法は元のモデルに匹敵する画像を生成することができる。
遅延空間で訓練された拡散モデル(例えば、安定拡散)に対して、我々の手法は1から4段階のデノナイジングステップで高忠実度画像を生成することができる。
論文 参考訳(メタデータ) (2022-10-06T18:03:56Z) - Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。
この精度はCLIPとALIGNの9.3%を超える。
我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文 参考訳(メタデータ) (2021-11-19T05:25:46Z) - Image Classification with CondenseNeXt for ARM-Based Computing Platforms [0.0]
我々は、自動運転車向けに開発された自動運転開発プラットフォームであるBlueBox上のCondenseNeXtという超効率的なディープ・ニューラル・ニューラルネットワークアーキテクチャの実装を実演する。
計算資源が限られているARMベースの組み込みコンピューティングプラットフォーム向けに設計されたFLOPにおいて,CondenseNeXtは極めて効率的であることを示す。
論文 参考訳(メタデータ) (2021-06-26T22:22:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。