論文の概要: Autoregressive Image Generation without Vector Quantization
- arxiv url: http://arxiv.org/abs/2406.11838v3
- Date: Fri, 01 Nov 2024 14:45:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-04 21:01:25.345905
- Title: Autoregressive Image Generation without Vector Quantization
- Title(参考訳): ベクトル量子化のない自己回帰画像生成
- Authors: Tianhong Li, Yonglong Tian, He Li, Mingyang Deng, Kaiming He,
- Abstract要約: 従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
- 参考スコア(独自算出の注目度): 31.798754606008067
- License:
- Abstract: Conventional wisdom holds that autoregressive models for image generation are typically accompanied by vector-quantized tokens. We observe that while a discrete-valued space can facilitate representing a categorical distribution, it is not a necessity for autoregressive modeling. In this work, we propose to model the per-token probability distribution using a diffusion procedure, which allows us to apply autoregressive models in a continuous-valued space. Rather than using categorical cross-entropy loss, we define a Diffusion Loss function to model the per-token probability. This approach eliminates the need for discrete-valued tokenizers. We evaluate its effectiveness across a wide range of cases, including standard autoregressive models and generalized masked autoregressive (MAR) variants. By removing vector quantization, our image generator achieves strong results while enjoying the speed advantage of sequence modeling. We hope this work will motivate the use of autoregressive generation in other continuous-valued domains and applications. Code is available at: https://github.com/LTH14/mar.
- Abstract(参考訳): 従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
離散値空間はカテゴリー分布の表現を容易にするが、自己回帰モデリングは必要ではない。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
カテゴリー的クロスエントロピー損失を使用するのではなく、拡散損失関数を定義し、各確率をモデル化する。
このアプローチは、離散値トークン化器の必要性を排除する。
本研究は,標準的な自己回帰モデルや一般化マスク自己回帰(MAR)変異など,幅広い症例で有効性を評価する。
ベクトル量子化を除去することにより、画像生成装置は、シーケンスモデリングの速度優位性を享受しながら、強い結果が得られる。
この作業が、他の継続的な価値のあるドメインやアプリケーションで自動回帰生成の使用を動機付けることを願っています。
コードは、https://github.com/LTH14/mar.comで入手できる。
関連論文リスト
- Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T10:42:13Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise [52.59444045853966]
画像劣化の選択を変更すれば,生成モデル全体のファミリを構築することができることを示す。
完全な決定論的モデルの成功は、拡散モデルに対するコミュニティの理解に疑問を投げかける。
論文 参考訳(メタデータ) (2022-08-19T15:18:39Z) - Modelling nonlinear dependencies in the latent space of inverse
scattering [1.5990720051907859]
アングルとマラートによって提案された逆散乱では、ディープニューラルネットワークが画像に適用された散乱変換を反転するように訓練される。
このようなネットワークをトレーニングした後、散乱係数の主成分分布から標本化できることから、生成モデルとして利用することができる。
本稿では,2つのモデル,すなわち変分オートエンコーダと生成逆数ネットワークについて検討する。
論文 参考訳(メタデータ) (2022-03-19T12:07:43Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。