論文の概要: Autoregressive Image Generation without Vector Quantization
- arxiv url: http://arxiv.org/abs/2406.11838v1
- Date: Mon, 17 Jun 2024 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-18 13:04:25.298898
- Title: Autoregressive Image Generation without Vector Quantization
- Title(参考訳): ベクトル量子化のない自己回帰画像生成
- Authors: Tianhong Li, Yonglong Tian, He Li, Mingyang Deng, Kaiming He,
- Abstract要約: 従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
- 参考スコア(独自算出の注目度): 31.798754606008067
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conventional wisdom holds that autoregressive models for image generation are typically accompanied by vector-quantized tokens. We observe that while a discrete-valued space can facilitate representing a categorical distribution, it is not a necessity for autoregressive modeling. In this work, we propose to model the per-token probability distribution using a diffusion procedure, which allows us to apply autoregressive models in a continuous-valued space. Rather than using categorical cross-entropy loss, we define a Diffusion Loss function to model the per-token probability. This approach eliminates the need for discrete-valued tokenizers. We evaluate its effectiveness across a wide range of cases, including standard autoregressive models and generalized masked autoregressive (MAR) variants. By removing vector quantization, our image generator achieves strong results while enjoying the speed advantage of sequence modeling. We hope this work will motivate the use of autoregressive generation in other continuous-valued domains and applications.
- Abstract(参考訳): 従来の知恵では、画像生成のための自己回帰モデルは一般にベクトル量子化トークンを伴っている。
離散値空間はカテゴリー分布の表現を容易にするが、自己回帰モデリングは必要ではない。
本研究では,拡散法を用いて確率分布の確率分布をモデル化し,連続値空間に自己回帰モデルを適用することを提案する。
カテゴリー的クロスエントロピー損失を使用するのではなく、拡散損失関数を定義し、各確率をモデル化する。
このアプローチは、離散値トークン化器の必要性を排除する。
本研究は,標準的な自己回帰モデルや一般化マスク自己回帰(MAR)変異など,幅広い症例で有効性を評価する。
ベクトル量子化を除去することにより、画像生成装置は、シーケンスモデリングの速度優位性を享受しながら、強い結果が得られる。
この作業が、他の継続的な価値のあるドメインやアプリケーションで自動回帰生成の使用を動機付けることを願っています。
関連論文リスト
- Bayesian generative models can flag performance loss, bias, and out-of-distribution image content [15.835055687646507]
生成モデルは、異常検出、特徴抽出、データの可視化、画像生成などの医療画像タスクに人気がある。
ディープラーニングモデルによってパラメータ化されているため、分散シフトに敏感であり、アウト・オブ・ディストリビューションデータに適用しても信頼できないことが多い。
我々は,インク,定規,パッチなどの分布外画像コンテンツを検出する画素ワイド不確実性を示す。
論文 参考訳(メタデータ) (2025-03-21T18:45:28Z) - Learning-Order Autoregressive Models with Application to Molecular Graph Generation [52.44913282062524]
本稿では,データから逐次推定される確率的順序付けを用いて高次元データを生成するARMの変種を紹介する。
提案手法は,画像およびグラフ生成において有意義な自己回帰順序を学習できることを実験的に実証した。
論文 参考訳(メタデータ) (2025-03-07T23:24:24Z) - Frequency Autoregressive Image Generation with Continuous Tokens [31.833852108014312]
本稿では、周波数プログレッシブ自己回帰(textbfFAR)パラダイムを導入し、連続トークン化器を用いてFARをインスタンス化する。
我々は、ImageNetデータセットの総合的な実験を通して、FARの有効性を実証する。
論文 参考訳(メタデータ) (2025-03-07T10:34:04Z) - One-for-More: Continual Diffusion Model for Anomaly Detection [61.12622458367425]
異常検出法は拡散モデルを用いて任意の異常画像が与えられたときの正常サンプルの生成または再構成を行う。
われわれは,拡散モデルが「重度忠実幻覚」と「破滅的な忘れ」に悩まされていることを発見した。
本研究では,安定な連続学習を実現するために勾配予測を用いた連続拡散モデルを提案する。
論文 参考訳(メタデータ) (2025-02-27T07:47:27Z) - Continuous Speculative Decoding for Autoregressive Image Generation [33.05392461723613]
連続評価された自己回帰(AR)画像生成モデルは、離散的傾向よりも顕著な優位性を示している。
投機的復号化は大規模言語モデル(LLM)の加速に有効であることが証明された
この研究は離散トークンから連続空間への投機的復号アルゴリズムを一般化する。
論文 参考訳(メタデータ) (2024-11-18T09:19:15Z) - Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。
これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。
提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文 参考訳(メタデータ) (2024-08-15T16:47:59Z) - Glauber Generative Model: Discrete Diffusion Models via Binary Classification [21.816933208895843]
離散拡散モデルの新しいクラスであるグラウバー生成モデル(GGM)を紹介する。
GGMはマルコフ連鎖を展開させ、離散トークンの共分散からサンプルにノイズトークンの列を分解する。
言語生成や画像生成において,既存の離散拡散モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T10:42:13Z) - A Pseudo-Semantic Loss for Autoregressive Models with Logical
Constraints [87.08677547257733]
ニューロシンボリックAIは、純粋にシンボリックな学習とニューラルな学習のギャップを埋める。
本稿では,ニューラルネットワークの出力分布に対するシンボリック制約の可能性を最大化する方法を示す。
また,スドクと最短経路予測の手法を自己回帰世代として評価した。
論文 参考訳(メタデータ) (2023-12-06T20:58:07Z) - Meaning Representations from Trajectories in Autoregressive Models [106.63181745054571]
入力テキストを拡張可能なすべてのトラジェクトリの分布を考慮し,自己回帰言語モデルから意味表現を抽出する。
この戦略はプロンプトフリーであり、微調整は必要とせず、事前訓練された自己回帰モデルにも適用できる。
我々は,大規模なモデルから得られた表現が人間のアノテーションとよく一致し,意味的類似性タスクにおける他のゼロショットおよびプロンプトフリーメソッドよりも優れており,標準埋め込みが扱えないより複雑なエンタテインメントや包含タスクの解決に使用できることを実証的に示す。
論文 参考訳(メタデータ) (2023-10-23T04:35:58Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Cold Diffusion: Inverting Arbitrary Image Transforms Without Noise [52.59444045853966]
画像劣化の選択を変更すれば,生成モデル全体のファミリを構築することができることを示す。
完全な決定論的モデルの成功は、拡散モデルに対するコミュニティの理解に疑問を投げかける。
論文 参考訳(メタデータ) (2022-08-19T15:18:39Z) - Modelling nonlinear dependencies in the latent space of inverse
scattering [1.5990720051907859]
アングルとマラートによって提案された逆散乱では、ディープニューラルネットワークが画像に適用された散乱変換を反転するように訓練される。
このようなネットワークをトレーニングした後、散乱係数の主成分分布から標本化できることから、生成モデルとして利用することができる。
本稿では,2つのモデル,すなわち変分オートエンコーダと生成逆数ネットワークについて検討する。
論文 参考訳(メタデータ) (2022-03-19T12:07:43Z) - Global Context with Discrete Diffusion in Vector Quantised Modelling for
Image Generation [19.156223720614186]
ベクトル量子変分オートエンコーダと自己回帰モデルとを生成部として統合することにより、画像生成における高品質な結果が得られる。
本稿では,VQ-VAEからのコンテンツリッチな離散視覚コードブックの助けを借りて,この離散拡散モデルにより,グローバルな文脈で高忠実度画像を生成することができることを示す。
論文 参考訳(メタデータ) (2021-12-03T09:09:34Z) - Argmax Flows and Multinomial Diffusion: Towards Non-Autoregressive
Language Models [76.22217735434661]
本稿では,Argmax FlowsとMultinomial Diffusionの2種類の分類モデルを提案する。
画像分割マップの言語モデリングとモデリングにおいて,我々のモデルが競合的に機能することを実証する。
論文 参考訳(メタデータ) (2021-02-10T11:04:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。