Fugu-MT 論文翻訳(概要): HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

論文の概要: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer

arxiv url: http://arxiv.org/abs/2410.10812v1
Date: Mon, 14 Oct 2024 17:59:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 19:24:58.947863
Title: HART: Efficient Visual Generation with Hybrid Autoregressive Transformer
Title（参考訳）: HART:ハイブリッド自己回帰変換器を用いた効率的なビジュアル生成
Authors: Haotian Tang, Yecheng Wu, Shang Yang, Enze Xie, Junsong Chen, Junyu Chen, Zhuoyang Zhang, Han Cai, Yao Lu, Song Han,
Abstract要約: 本稿では,1024×1024画像を直接生成可能な自己回帰型(AR)視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。提案手法はMJHQ-30Kで2.11から0.30に改良され,7.85から5.38までの31%のFID改善を実現した。 HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。
参考スコア（独自算出の注目度）: 33.97880303341509
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Hybrid Autoregressive Transformer (HART), an autoregressive (AR) visual generation model capable of directly generating 1024x1024 images, rivaling diffusion models in image generation quality. Existing AR models face limitations due to the poor image reconstruction quality of their discrete tokenizers and the prohibitive training costs associated with generating 1024px images. To address these challenges, we present the hybrid tokenizer, which decomposes the continuous latents from the autoencoder into two components: discrete tokens representing the big picture and continuous tokens representing the residual components that cannot be represented by the discrete tokens. The discrete component is modeled by a scalable-resolution discrete AR model, while the continuous component is learned with a lightweight residual diffusion module with only 37M parameters. Compared with the discrete-only VAR tokenizer, our hybrid approach improves reconstruction FID from 2.11 to 0.30 on MJHQ-30K, leading to a 31% generation FID improvement from 7.85 to 5.38. HART also outperforms state-of-the-art diffusion models in both FID and CLIP score, with 4.5-7.7x higher throughput and 6.9-13.4x lower MACs. Our code is open sourced at https://github.com/mit-han-lab/hart.
Abstract（参考訳）: 本稿では、1024×1024画像を直接生成できる自己回帰型視覚生成モデルであるHybrid Autoregressive Transformer(HART)を紹介する。既存のARモデルは、1024px画像の生成に伴う、個々のトークンのイメージ再構成品質の低下と、禁止的なトレーニングコストによる制限に直面している。これらの課題に対処するため,オートエンコーダから連続ラテントを分解するハイブリットトークンを,大画面を表す離散トークンと,離散トークンで表現できない残留成分を表す連続トークンの2つのコンポーネントに分割する。離散成分はスケーラブル解像度の離散ARモデルでモデル化され、連続成分は37Mパラメータしか持たない軽量残留拡散モジュールで学習される。離散型VARトークン化器と比較して,MJHQ-30Kでは2.11から0.30に改良され,7.85から5.38に31%のFIDが向上した。 HARTはまた、FIDとCLIPスコアの両方において、4.5-7.7倍高いスループットと6.9-13.4倍低いMACで最先端の拡散モデルより優れている。私たちのコードはhttps://github.com/mit-han-lab/hart.comで公開されている。

関連論文リスト

DC-AR: Efficient Masked Autoregressive Image Generation with Deep Compression Hybrid Tokenizer [32.64616770377737]
DC-ARは、マスク付き自己回帰(AR)テキスト・ツー・イメージ生成フレームワークである。優れた画像生成品質と計算効率を両立させる。
論文参考訳（メタデータ） (2025-07-07T12:45:23Z)
AliTok: Towards Sequence Modeling Alignment between Tokenizer and Autoregressive Model [59.065471969232284]
トークン化と自己回帰モデルを整合させる新しいアラインド・トークン化器(AliTok)を提案する。 ImageNet-256ベンチマークでは、標準デコーダのみの自己回帰モデルをジェネレータとして使用し、AliTokはgFIDスコア1.50とIS305.9を達成している。パラメータ数が 662M に増加すると、AliTok は gFID スコア 1.35 に達し、10倍高速サンプリング速度で最先端拡散法を上回ります。
論文参考訳（メタデータ） (2025-06-05T17:45:10Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
D2C: Unlocking the Potential of Continuous Autoregressive Image Generation with Discrete Tokens [80.75893450536577]
モデル生成能力を向上させる新しい2段階法であるD2Cを提案する。第1段階では、小さな離散値発生器を用いて粗粒度画像特徴を表す離散値トークンをサンプリングする。第2段階では、離散トークンシーケンスに基づいて、きめ細かい画像特徴を表す連続値トークンを学習する。
論文参考訳（メタデータ） (2025-03-21T13:58:49Z)
Robust Latent Matters: Boosting Image Generation with Sampling Error Synthesis [57.7367843129838]
最近の画像生成方式は、凍結した画像トークン化器に依存した事前構築された潜在空間における画像分布を典型的に捉えている。本稿では,遅延空間構築を容易にするための新しいプラグ・アンド・プレイ・トークンライザ・トレーニング手法を提案する。
論文参考訳（メタデータ） (2025-03-11T12:09:11Z)
Improving the Diffusability of Autoencoders [54.920783089085035]
高品質な画像やビデオを生成するための主要なアプローチとして、潜伏拡散モデルが登場している。我々は、現代のオートエンコーダのスペクトル分析を行い、その潜在空間における不規則な高周波成分を同定する。我々は、この高周波成分が拡散合成プロセスの粗大な微細な性質に干渉し、生成品質を阻害する仮説を立てた。
論文参考訳（メタデータ） (2025-02-20T18:45:44Z)
EQ-VAE: Equivariance Regularized Latent Space for Improved Generative Image Modeling [11.075247758198762]
潜在生成モデルは、イメージを潜在空間に圧縮するためのオートエンコーダに依存し、次いで、潜在分布を学習するための生成モデルが続く。 EQ-VAE(EQ-VAE)は、遅延空間における等式を強制し、再構成品質を劣化させることなく、その複雑さを低減させる単純な正規化手法である。 DiT, SiT, REPA, MaskGITなどの最先端生成モデルの性能を向上し, SD-VAE微調整を5回だけ行うことで, DiT-XL/2上で7回の高速化を実現した。
論文参考訳（メタデータ） (2025-02-13T17:21:51Z)
Masked Autoencoders Are Effective Tokenizers for Diffusion Models [56.08109308294133]
MAETokは自己エンコーダであり、再構築の忠実さを維持しながら意味的にリッチな潜在空間を学習する。 MaETokは1.69のgFIDで76倍高速トレーニングが可能で、512x512世代で31倍高い推論スループットを実現している。
論文参考訳（メタデータ） (2025-02-05T18:42:04Z)
3D representation in 512-Byte:Variational tokenizer is the key for autoregressive 3D generation [4.221298212125194]
変分トークン化器(VAT)は、無秩序な3Dデータを暗黙の階層を持つコンパクトな潜在トークンに変換する。 VATはスケーラブルで効率的な3D生成を可能にする。
論文参考訳（メタデータ） (2024-12-03T06:31:25Z)
Boosting Latent Diffusion with Perceptual Objectives [29.107038084215514]
遅延拡散モデル (LDMs) パワー・オブ・ザ・アート高分解能画像モデル。我々は,遅延知覚損失(LPL)を定義するためにデコーダの内部的特徴を活用することを提案する。この損失により、モデルはよりシャープでリアルなイメージを作成することができる。
論文参考訳（メタデータ） (2024-11-06T16:28:21Z)
Diff-Instruct*: Towards Human-Preferred One-step Text-to-image Generative Models [8.352666876052616]
Diff-Instruct*(DI*)は1段階のテキスト・ツー・イメージ生成モデルを構築するためのデータフリーアプローチである。安定拡散V1.5 を基準拡散モデルとし、DI* は以前の先行モデルを大きなマージンで上回る。
論文参考訳（メタデータ） (2024-10-28T10:26:19Z)
Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文参考訳（メタデータ） (2024-10-10T17:59:17Z)
MaskBit: Embedding-free Image Generation via Bit Tokens [54.827480008982185]
我々は,VQGANの実証的,体系的な検討を行い,近代化されたVQGANを導いた。ビットトークンを直接操作する新しい埋め込み不要な生成ネットワークは、ImageNet 256x256ベンチマークで1.52の最先端FIDを達成し、わずか305Mパラメータのコンパクトなジェネレータモデルである。
論文参考訳（メタデータ） (2024-09-24T16:12:12Z)
LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。蒸留したLinFusionは,元のSDと同等以上の性能を示す。 SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文参考訳（メタデータ） (2024-09-03T17:54:39Z)
An Image is Worth 32 Tokens for Reconstruction and Generation [54.24414696392026]
Transformer-based 1-dimensional Tokenizer (TiTok) は、画像を1D潜在シーケンスにトークン化する革新的なアプローチである。 TiTokは最先端のアプローチと競合するパフォーマンスを実現している。我々の最高性能の変種は、DiT-XL/2 (gFID 2.13 vs. 3.04) をはるかに上回りながら、高品質なサンプルを74倍高速に生成できる。
論文参考訳（メタデータ） (2024-06-11T17:59:56Z)
One-step Diffusion with Distribution Matching Distillation [54.723565605974294]
本稿では,拡散モデルを1ステップ画像生成器に変換する手法である分散マッチング蒸留(DMD)を紹介する。約KLの発散を最小化することにより,拡散モデルと分布レベルで一致した一段階画像生成装置を強制する。提案手法は,イメージネット64x64では2.62 FID,ゼロショットCOCO-30kでは11.49 FIDに到達した。
論文参考訳（メタデータ） (2023-11-30T18:59:20Z)
StraIT: Non-autoregressive Generation with Stratified Image Transformer [63.158996766036736]
Stratified Image Transformer(StraIT)は、純粋な非自己回帰(NAR)生成モデルである。実験の結果,StraIT は NAR 生成を著しく改善し,既存の DM および AR 手法より優れていた。
論文参考訳（メタデータ） (2023-03-01T18:59:33Z)
Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration [6.611849560359801]
本稿では,自己アテンションモジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。実験により、Dual-formerはIndoorデータセットの最先端MAXIM法よりも1.91dBのゲインを達成していることが示された。単一画像のデライニングでは、わずか21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dB PSNRで上回っている。
論文参考訳（メタデータ） (2022-10-03T16:39:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。