Fugu-MT 論文翻訳(概要): 1.58-bit FLUX

論文の概要: 1.58-bit FLUX

arxiv url: http://arxiv.org/abs/2412.18653v1
Date: Tue, 24 Dec 2024 19:00:02 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-30 21:44:04.876288
Title: 1.58-bit FLUX
Title（参考訳）: 1.58ビットFLUX
Authors: Chenglin Yang, Celong Liu, Xueqing Deng, Dongwon Kim, Xing Mei, Xiaohui Shen, Liang-Chieh Chen,
Abstract要約: 我々は、最先端のテキスト・画像生成モデルFLUX.1-devを量子化する最初の成功例である1.58ビットFLUXを提案する。本手法は,FLUX.1-devモデルからの自己スーパービジョンのみに依存して,画像データにアクセスすることなく動作する。
参考スコア（独自算出の注目度）: 22.167935142862287
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present 1.58-bit FLUX, the first successful approach to quantizing the state-of-the-art text-to-image generation model, FLUX.1-dev, using 1.58-bit weights (i.e., values in {-1, 0, +1}) while maintaining comparable performance for generating 1024 x 1024 images. Notably, our quantization method operates without access to image data, relying solely on self-supervision from the FLUX.1-dev model. Additionally, we develop a custom kernel optimized for 1.58-bit operations, achieving a 7.7x reduction in model storage, a 5.1x reduction in inference memory, and improved inference latency. Extensive evaluations on the GenEval and T2I Compbench benchmarks demonstrate the effectiveness of 1.58-bit FLUX in maintaining generation quality while significantly enhancing computational efficiency.
Abstract（参考訳）: 我々は、1.58ビット重み(すなわち {-1, 0, +1} の値)を用いて、1024 x 1024 画像を生成するための同等の性能を維持しながら、最先端のテキスト・画像生成モデル FLUX.1-dev の量子化に成功した最初のアプローチである 1.58-bit FLUX を提案する。特に、FLUX.1-devモデルからの自己超越にのみ依存して、画像データにアクセスせずに量子化を行う。さらに,1.58ビット演算に最適化されたカスタムカーネルを開発し,モデルストレージの7.7倍の削減,推論メモリの5.1倍の削減,推論遅延の改善を実現した。 GenEval と T2I Compbench ベンチマークの大規模な評価は、生成品質を維持する上で 1.58 ビット FLUX の有効性を示し、計算効率を著しく向上させた。

関連論文リスト

DiCo: Revitalizing ConvNets for Scalable and Efficient Diffusion Modeling [53.33281984430122]
Diffusion Transformer (DiT) は、視覚生成のための有望な拡散モデルであるが、計算オーバーヘッドが大きい。本稿では,効率的かつ表現力のある拡散モデルを構築するための代替ビルディングブロックとして,畳み込みを再考する。標準のConvNetモジュールから完全に構築された拡散モデルのファミリであるDiffusion ConvNet(DiCo)を紹介する。
論文参考訳（メタデータ） (2025-05-16T12:54:04Z)
SANA 1.5: Efficient Scaling of Training-Time and Inference-Time Compute in Linear Diffusion Transformer [49.1761733723771]
本稿では,テキスト・画像生成における効率的なスケーリングを実現する線形拡散変換器であるSANA-1.5を提案する。効率的なトレーニングスケーリング、モデルの深さ決定、推論時間スケーリングの3つの重要なイノベーションを紹介します。これらの戦略により、SANA-1.5 は GenEval 上のテキスト計算画像アライメントスコア 0.81 を達成し、VILA-Judge による推論スケーリングにより、さらに 0.96 に改善できる。
論文参考訳（メタデータ） (2025-01-30T15:31:48Z)
When Worse is Better: Navigating the compression-generation tradeoff in visual tokenization [92.17160980120404]
本稿では,第2段階のモデル手法の知識を用いて,第1段階の潜伏者に有用な帰納バイアスを埋め込むCausally Regularized Tokenization(CRT)を紹介する。 CRTは、ステージ1の再構築性能を悪化させるが、ステージ2の生成性能は、トークンをモデル化しやすくすることで向上する。最先端の離散自己回帰画像ネット生成(2.18 FID)と画像あたりのトークンの半分以下とをマッチングする。
論文参考訳（メタデータ） (2024-12-20T20:32:02Z)
Collaborative Decoding Makes Visual Auto-Regressive Modeling Efficient [52.96232442322824]
CoDe(Collaborative Decoding)は、Visual Auto-Regressive (VAR)フレームワーク用に設計された、新しい効率的なデコーディング戦略である。 CoDeは、大規模でのパラメータ要求の大幅な削減と、異なるスケールでの排他的生成パターンという、2つの重要な観察に乗じている。 CoDeは1.7倍のスピードアップを実現し、メモリ使用量を約50%削減し、画像品質を1.95から1.98に改善した。
論文参考訳（メタデータ） (2024-11-26T15:13:15Z)
Simplifying, Stabilizing and Scaling Continuous-Time Consistency Models [7.254959022456085]
一貫性モデル(CM)は、高速サンプリングのための拡散ベース生成モデルの強力なクラスである。既存のCMの多くは、離散化されたタイムステップを使用してトレーニングされており、これは追加のハイパーパラメータを導入し、離散化エラーを起こしやすい。本稿では,拡散モデルとCMの過去のパラメータ化を統一し,不安定性の根本原因を同定する簡易な理論フレームワークを提案する。 CIFAR-10では2.06点、ImageNet 64x64では1.48点、ImageNet 512x512では1.88点のFIDスコアを達成し、FIDスコアの差を狭める。
論文参考訳（メタデータ） (2024-10-14T20:43:25Z)
ViT-1.58b: Mobile Vision Transformers in the 1-bit Era [27.74281483852495]
本稿では、メモリと計算オーバーヘッドを大幅に削減する新しい1.58ビット量子化ViTモデルViT-1.58bを紹介する。 CIFAR-10 と ImageNet-1k の実験では、ViT-1.58b は完全精度の Vit に匹敵する精度を維持している。
論文参考訳（メタデータ） (2024-06-26T04:01:19Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
Achieving Pareto Optimality using Efficient Parameter Reduction for DNNs in Resource-Constrained Edge Environment [1.9055921262476347]
本稿では,既存のDeep Neural Network (DNN) の最適化を提案する。精度を犠牲にすることなくモデルサイズを縮小し、トレーニング中のメモリ使用量を削減できるXceptionの効率的なパラメータ削減戦略を実装した。
論文参考訳（メタデータ） (2024-03-14T19:40:58Z)
KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis [52.42320594388199]
効率的なテキスト・ツー・イメージ・モデルを構築する上で重要なプラクティスを3つ提示する。これらの結果に基づき、KOALA-Turbo &-Lightningと呼ばれる2種類の効率的なテキスト・画像モデルを構築した。 SDXLとは異なり、私たちのKOALAモデルは8GBのVRAM(3060Ti)を持つコンシューマグレードGPU上で1024pxの高解像度画像を生成することができる。
論文参考訳（メタデータ） (2023-12-07T02:46:18Z)
InceptionNeXt: When Inception Meets ConvNeXt [147.50287103414115]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。 InceptionNeXtはConvNeXt-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文参考訳（メタデータ） (2023-03-29T17:59:58Z)
Combined Scaling for Zero-shot Transfer Learning [146.0851484769142]
我々は,ImageNet ILSVRC-2012バリデーションセットにおいて,85.7%のトップ1の精度を達成できるBASICと組み合わせたスケーリング手法を提案する。この精度はCLIPとALIGNの9.3%を超える。我々のモデルは、ロバストネスベンチマークの大幅な改善も示しています。
論文参考訳（メタデータ） (2021-11-19T05:25:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。