論文の概要: Randomized Autoregressive Visual Generation
- arxiv url: http://arxiv.org/abs/2411.00776v1
- Date: Fri, 01 Nov 2024 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:40:11.610628
- Title: Randomized Autoregressive Visual Generation
- Title(参考訳): ランダム化された自己回帰視覚生成
- Authors: Qihang Yu, Ju He, Xueqing Deng, Xiaohui Shen, Liang-Chieh Chen,
- Abstract要約: 本稿では,視覚生成のためのランダム化自己回帰モデリング(RAR)を提案する。
RARは、言語モデリングフレームワークとの完全な互換性を維持しながら、画像生成タスクに最先端のパフォーマンスを新たに設定する。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
- 参考スコア(独自算出の注目度): 26.195148077398223
- License:
- Abstract: This paper presents Randomized AutoRegressive modeling (RAR) for visual generation, which sets a new state-of-the-art performance on the image generation task while maintaining full compatibility with language modeling frameworks. The proposed RAR is simple: during a standard autoregressive training process with a next-token prediction objective, the input sequence-typically ordered in raster form-is randomly permuted into different factorization orders with a probability r, where r starts at 1 and linearly decays to 0 over the course of training. This annealing training strategy enables the model to learn to maximize the expected likelihood over all factorization orders and thus effectively improve the model's capability of modeling bidirectional contexts. Importantly, RAR preserves the integrity of the autoregressive modeling framework, ensuring full compatibility with language modeling while significantly improving performance in image generation. On the ImageNet-256 benchmark, RAR achieves an FID score of 1.48, not only surpassing prior state-of-the-art autoregressive image generators but also outperforming leading diffusion-based and masked transformer-based methods. Code and models will be made available at https://github.com/bytedance/1d-tokenizer
- Abstract(参考訳): 本稿では、言語モデリングフレームワークとの完全な互換性を維持しつつ、画像生成タスクに新たな最先端パフォーマンスを設定できる視覚生成のためのランダム化自動回帰モデリング(RAR)を提案する。
提案したRARは, 通常の自己回帰学習プロセスにおいて, 次トーケン予測目標を用いて, 入力シーケンスをラスタ形式でランダムに順列し, 確率 r で異なる因子化順序にランダムに置換し, r は 1 から始まり, トレーニングの途中で直線的に 0 に減衰する。
このアニーリングトレーニング戦略により、モデルはすべての因子化順序に対して期待される可能性の最大化を学習することができ、これにより、双方向コンテキストをモデル化するモデルの能力を効果的に改善することができる。
重要な点として、RARは自動回帰モデリングフレームワークの完全性を維持し、言語モデリングとの完全な互換性を確保しつつ、画像生成の性能を大幅に向上させる。
ImageNet-256ベンチマークでは、RARはFIDスコアが1.48に達し、最先端の自己回帰画像生成装置に勝るだけでなく、拡散ベースおよびマスク付きトランスフォーマーベースの手法よりも優れている。
コードとモデルはhttps://github.com/bytedance/1d-tokenizerで利用可能になる。
関連論文リスト
- M-VAR: Decoupled Scale-wise Autoregressive Modeling for High-Quality Image Generation [39.97174784206976]
このスケールワイド自己回帰フレームワークは,テキストイントラスケールモデリングに効果的に分離可能であることを示す。
計算オーバーヘッドを大幅に削減するために,Mambaのような線形複雑度機構を適用した。
実験により,本手法は画像品質と生成速度の両方で既存モデルより優れていることが示された。
論文 参考訳(メタデータ) (2024-11-15T18:54:42Z) - Meissonic: Revitalizing Masked Generative Transformers for Efficient High-Resolution Text-to-Image Synthesis [62.06970466554273]
SDXLのような最先端拡散モデルに匹敵するレベルまで、非自己回帰マスク型画像モデリング(MIM)のテキスト・ツー・イメージが増大するMeissonicを提案する。
高品質なトレーニングデータを活用し、人間の嗜好スコアから得られるマイクロ条件を統合し、特徴圧縮層を用いて画像の忠実度と解像度をさらに向上する。
我々のモデルは、高画質の高精細画像を生成する際に、SDXLのような既存のモデルに適合するだけでなく、しばしば性能を上回ります。
論文 参考訳(メタデータ) (2024-10-10T17:59:17Z) - Accelerating Auto-regressive Text-to-Image Generation with Training-free Speculative Jacobi Decoding [60.188309982690335]
本稿では,自動回帰テキスト・画像生成を高速化するために,訓練不要な確率的並列デコーディングアルゴリズムであるSpeculative Jacobi Decoding (SJD)を提案する。
確率収束基準を導入することにより、サンプリングベースのトークン復号におけるランダム性を維持しつつ、自動回帰テキスト・画像生成の推論を高速化する。
論文 参考訳(メタデータ) (2024-10-02T16:05:27Z) - Autoregressive Model Beats Diffusion: Llama for Scalable Image Generation [52.509092010267665]
我々はLlamaGenを紹介した。LlamaGenは画像生成モデルの新しいファミリーで、視覚生成ドメインに対して、大規模言語モデルのオリジナルの次世代予測のパラダイムを適用している。
これは、例えば、視覚信号に誘導バイアスのないバニラ自己回帰モデルが、適切にスケーリングすれば最先端の画像生成性能を達成できるかどうか、肯定的な答えである。
論文 参考訳(メタデータ) (2024-06-10T17:59:52Z) - Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction [33.57820997288788]
画像上の自己回帰学習を粗い「次世代予測」として再定義する新世代パラダイムを提案する。
Visual AutoRegressive Modelingにより、GPTライクなARモデルは画像生成において拡散トランスフォーマーを超越する。
我々は、視覚生成と統合学習のためのAR/tokenモデルの探索を促進するために、すべてのモデルとコードをリリースした。
論文 参考訳(メタデータ) (2024-04-03T17:59:53Z) - RL for Consistency Models: Faster Reward Guided Text-to-Image Generation [15.238373471473645]
強化学習(RL)を用いた微調整一貫性モデルのためのフレームワークを提案する。
RLCM(Reinforcement Learning for Consistency Model)と呼ばれる我々のフレームワークは、一貫性モデルの反復推論プロセスをRLプロシージャとしてフレーム化します。
RL微調整拡散モデルと比較して、RCCMの列車は大幅に高速で、報奨目標に基づいて測定された生成の質を向上し、2段階の推論ステップで高品質な画像を生成することにより推論手順を高速化する。
論文 参考訳(メタデータ) (2024-03-25T15:40:22Z) - A-SDM: Accelerating Stable Diffusion through Redundancy Removal and
Performance Optimization [54.113083217869516]
本研究ではまず,ネットワークの計算冗長性について検討する。
次に、モデルの冗長性ブロックをプルークし、ネットワーク性能を維持する。
第3に,計算集約型注意部を高速化するグローバル地域対話型注意(GRI)を提案する。
論文 参考訳(メタデータ) (2023-12-24T15:37:47Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Exploring Stochastic Autoregressive Image Modeling for Visual
Representation [24.582376834198403]
本稿では,2つの簡単な設計による自己回帰画像モデリング(SAIM)を提案する。
予測と並列エンコーダデコーダの導入により,SAIMは自己回帰画像モデリングの性能を著しく向上させる。
提案手法は,ImageNet-1Kデータのみを用いて,バニラVTベースモデル上で最高の精度(83.9%)を実現する。
論文 参考訳(メタデータ) (2022-12-03T13:04:29Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。