Fugu-MT 論文翻訳(概要): RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction

論文の概要: RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction

arxiv url: http://arxiv.org/abs/2412.18390v1
Date: Tue, 24 Dec 2024 12:28:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-25 19:23:17.77024
Title: RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction
Title（参考訳）: RDPM:リカレントトークン予測による拡散確率モデルの解法
Authors: Wu Xiaoping, Hu Jie, Wei Xiaoming,
Abstract要約: 拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion Probabilistic Models (DPMs) have emerged as the de facto approach for high-fidelity image synthesis, operating diffusion processes on continuous VAE latent, which significantly differ from the text generation methods employed by Large Language Models (LLMs). In this paper, we introduce a novel generative framework, the Recurrent Diffusion Probabilistic Model (RDPM), which enhances the diffusion process through a recurrent token prediction mechanism, thereby pioneering the field of Discrete Diffusion. By progressively introducing Gaussian noise into the latent representations of images and encoding them into vector-quantized tokens in a recurrent manner, RDPM facilitates a unique diffusion process on discrete-value domains. This process iteratively predicts the token codes for subsequent timesteps, transforming the initial standard Gaussian noise into the source data distribution, aligning with GPT-style models in terms of the loss function. RDPM demonstrates superior performance while benefiting from the speed advantage of requiring only a few inference steps. This model not only leverages the diffusion process to ensure high-quality generation but also converts continuous signals into a series of high-fidelity discrete tokens, thereby maintaining a unified optimization strategy with other discrete tokens, such as text. We anticipate that this work will contribute to the development of a unified model for multimodal generation, specifically by integrating continuous signal domains such as images, videos, and audio with text. We will release the code and model weights to the open-source community.
Abstract（参考訳）: 拡散確率モデル (DPM) は, 大規模言語モデル (LLM) で用いられるテキスト生成法とは大きく異なる, 高忠実な画像合成, 連続VAEラテント上の拡散過程の事実上のアプローチとして登場した。本稿では,再帰的トークン予測機構を通じて拡散過程を向上し,離散拡散の分野を開拓する新たな生成フレームワークであるRDPMを紹介する。画像の潜在表現にガウスノイズを徐々に導入し、それをベクトル量子化トークンに再帰的に符号化することにより、RDPMは離散値領域上の独自の拡散プロセスを促進する。このプロセスは、後続のタイムステップのトークンコードを反復的に予測し、最初の標準ガウスノイズをソースデータ分布に変換し、損失関数の観点からGPTスタイルのモデルと整合する。 RDPMは、数ステップしか必要としないスピードのアドバンテージを享受しながら、優れたパフォーマンスを示す。このモデルは拡散過程を利用して高品質な生成を保証するだけでなく、連続的な信号を一連の高忠実度離散トークンに変換し、テキストなどの他の離散トークンと統一的な最適化戦略を維持する。本研究は,画像,ビデオ,音声などの連続的な信号領域をテキストと統合することにより,マルチモーダル生成のための統一モデルの開発に寄与することが期待できる。コードとモデルの重みをオープンソースコミュニティにリリースします。

関連論文リスト

Unifying Continuous and Discrete Text Diffusion with Non-simultaneous Diffusion Processes [9.29387855908007]
NeoDiffは、離散的アプローチと連続的アプローチの両方の長所を統合する、新しい拡散モデルである。我々のアプローチは、テキスト生成のためのより原理的で効果的なフレームワークを提供する、離散的かつ連続的な拡散モデルの理論を統一する。
論文参考訳（メタデータ） (2025-05-28T09:28:52Z)
Forward-only Diffusion Probabilistic Models [14.538117998129307]
この研究は、生成モデリングのためのフォワードオンリー拡散(FoD)アプローチを示す。 FoDは単一の前方拡散プロセスを通じてデータ生成を直接学習する。 FoDは解析的に抽出可能であり、単純なフローマッチングの目的を用いて訓練される。
論文参考訳（メタデータ） (2025-05-22T14:47:07Z)
Unifying Autoregressive and Diffusion-Based Sequence Generation [2.3923884480793673]
本稿では,拡散に基づく系列生成モデルの拡張について述べる。個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。第2に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文参考訳（メタデータ） (2025-04-08T20:32:10Z)
Generative modelling with jump-diffusions [0.0]
非ガウス的雑音過程の幅広いクラスに対する生成拡散過程の一般化を提案する。重み付きターゲット分布を捕捉する問題に対して、ジャンプ拡散ラプラスモデルは、アルファ安定雑音によって駆動されるモデルより優れる。
論文参考訳（メタデータ） (2025-03-09T11:08:03Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Derivative-Free Guidance in Continuous and Discrete Diffusion Models with Soft Value-Based Decoding [84.3224556294803]
拡散モデルは、画像、分子、DNA、RNA、タンパク質配列の自然なデザイン空間を捉えるのに優れている。これらの設計空間の自然性を保ちながら、下流の報酬関数を最適化することを目指している。提案アルゴリズムは,中間雑音状態が将来高い報酬をもたらすことの先駆けとして,ソフトバリュー関数を統合する。
論文参考訳（メタデータ） (2024-08-15T16:47:59Z)
Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion [61.03681839276652]
拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
論文参考訳（メタデータ） (2024-07-01T15:43:25Z)
Convergence Analysis of Discrete Diffusion Model: Exact Implementation through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-12T22:26:52Z)
Bayesian Flow Networks [4.585102332532472]
本稿では,ベイジアン・フロー・ネットワーク(BFN)について述べる。ベイジアン・フロー・ネットワーク(BFN)は,独立分布の集合のパラメータをベイジアン推論で修正した新しい生成モデルである。単純な事前および反復的な2つの分布の更新から始めると、拡散モデルの逆過程に似た生成手順が得られる。 BFNは動的にバイナライズされたMNISTとCIFAR-10で画像モデリングを行うために競合するログライクフレーションを実現し、text8文字レベルの言語モデリングタスクにおいて既知のすべての離散拡散モデルより優れている。
論文参考訳（メタデータ） (2023-08-14T09:56:35Z)
Simultaneous Image-to-Zero and Zero-to-Noise: Diffusion Models with Analytical Image Attenuation [53.04220377034574]
高品質(未条件)な画像生成のための前方拡散プロセスに解析的画像減衰プロセスを導入することを提案する。本手法は,フォワード画像からノイズへのマッピングを,テクスチメジからゼロへのマッピングとテクスティケロ・ツー・ノイズマッピングの同時マッピングとして表現する。我々は,CIFAR-10やCelebA-HQ-256などの無条件画像生成や,超解像,サリエンシ検出,エッジ検出,画像インペインティングなどの画像条件下での下流処理について実験を行った。
論文参考訳（メタデータ） (2023-06-23T18:08:00Z)
Modiff: Action-Conditioned 3D Motion Generation with Denoising Diffusion Probabilistic Models [58.357180353368896]
本稿では,現実的で多様な3D骨格に基づく運動生成問題に対処するために,拡散確率モデル(DDPM)の利点を生かした条件付きパラダイムを提案する。我々はDDPMを用いてカテゴリ的動作で条件付けられた動作列の可変数を合成する先駆的な試みである。
論文参考訳（メタデータ） (2023-01-10T13:15:42Z)
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。 DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文参考訳（メタデータ） (2022-12-20T13:36:25Z)
Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-02-19T20:18:49Z)
Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文参考訳（メタデータ） (2021-03-30T05:48:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。