Fugu-MT 論文翻訳(概要): Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

論文の概要: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

arxiv url: http://arxiv.org/abs/2407.01392v2
Date: Tue, 2 Jul 2024 15:39:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 21:00:48.341831
Title: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
Title（参考訳）: 拡散強制: フルシーケンス拡散を伴う次世代予測
Authors: Boyuan Chen, Diego Marti Monso, Yilun Du, Max Simchowitz, Russ Tedrake, Vincent Sitzmann,
Abstract要約: 拡散強制(Diffusion Forcing)は、拡散モデルをトレーニングし、トークンの集合に独立した音レベルを付与する、新たなトレーニングパラダイムである。因果的次トーケン予測モデルを訓練して1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。
参考スコア（独自算出の注目度）: 61.03681839276652
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This paper presents Diffusion Forcing, a new training paradigm where a diffusion model is trained to denoise a set of tokens with independent per-token noise levels. We apply Diffusion Forcing to sequence generative modeling by training a causal next-token prediction model to generate one or several future tokens without fully diffusing past ones. Our approach is shown to combine the strengths of next-token prediction models, such as variable-length generation, with the strengths of full-sequence diffusion models, such as the ability to guide sampling to desirable trajectories. Our method offers a range of additional capabilities, such as (1) rolling-out sequences of continuous tokens, such as video, with lengths past the training horizon, where baselines diverge and (2) new sampling and guiding schemes that uniquely profit from Diffusion Forcing's variable-horizon and causal architecture, and which lead to marked performance gains in decision-making and planning tasks. In addition to its empirical success, our method is proven to optimize a variational lower bound on the likelihoods of all subsequences of tokens drawn from the true joint distribution. Project website: https://boyuan.space/diffusion-forcing/
Abstract（参考訳）: 本稿では,拡散モデルを用いて一組のトークンに独立したノイズレベルを付与する新たな訓練パラダイムである拡散強制(Diffusion Forcing)を提案する。因果的次トーケン予測モデルを訓練して、過去のトークンを完全に拡散させることなく、1つまたは複数の未来のトークンを生成することで、シーケンス生成モデルに拡散強制を適用する。提案手法は,変数長生成などの次トーケン予測モデルの長所と,サンプリングを望ましい軌道に誘導する機能などのフルシーケンス拡散モデルの長所を組み合わせる。提案手法は,(1)ビデオなどの連続トークンのロールアウトシーケンス,(2)ベースラインのばらつき,(2)Diffusion Forcingの可変水平および因果アーキテクチャから一意に利益を得る新しいサンプリングとガイドスキーム,などの追加機能を提供し,意思決定や計画作業において顕著なパフォーマンス向上をもたらす。実験的な成功に加えて,本手法は真の関節分布から引き出された全てのトークン列の確率の変動的下限を最適化することが証明された。プロジェクトウェブサイト: https://boyuan.space/diffusion-forcing/

関連論文リスト

UniSegDiff: Boosting Unified Lesion Segmentation via a Staged Diffusion Model [53.34835793648352]
病変分割のための新しい拡散モデルフレームワークUniSegDiffを提案する。 UniSegDiffは、複数のモダリティと臓器にまたがる統一された方法で病変のセグメンテーションに対処する。総合的な実験結果から、UniSegDiffは従来のSOTA(State-of-the-art)アプローチよりも大幅に優れていた。
論文参考訳（メタデータ） (2025-07-24T12:33:10Z)
Unifying Continuous and Discrete Text Diffusion with Non-simultaneous Diffusion Processes [9.29387855908007]
NeoDiffは、離散的アプローチと連続的アプローチの両方の長所を統合する、新しい拡散モデルである。我々のアプローチは、テキスト生成のためのより原理的で効果的なフレームワークを提供する、離散的かつ連続的な拡散モデルの理論を統一する。
論文参考訳（メタデータ） (2025-05-28T09:28:52Z)
Consistent World Models via Foresight Diffusion [56.45012929930605]
我々は、一貫した拡散に基づく世界モデルを学習する上で重要なボトルネックは、最適下予測能力にあると主張している。本稿では,拡散に基づく世界モデリングフレームワークであるForesight Diffusion(ForeDiff)を提案する。
論文参考訳（メタデータ） (2025-05-22T10:01:59Z)
ADiff4TPP: Asynchronous Diffusion Models for Temporal Point Processes [30.928368603673285]
本研究は,非同期ノイズスケジュールを持つ拡散モデルを用いて時間点過程をモデル化するための新しいアプローチを導入する。本研究では,条件付き流れマッチングに基づく騒音スケジュールの一般的なファミリに対して,これらのモデルを効果的に訓練する目的を導出する。提案手法は,時系列におけるイベントの潜在表現と最先端結果の連成分布を実現し,次のイベント間時間とイベントタイプをベンチマークデータセット上で予測する。
論文参考訳（メタデータ） (2025-04-29T04:17:39Z)
Unifying Autoregressive and Diffusion-Based Sequence Generation [2.3923884480793673]
本稿では,拡散に基づく系列生成モデルの拡張について述べる。個別のトークン位置に異なるノイズスケジュールを割り当てるハイパースケジューリングを導入する。第2に,吸収過程と一様過程の間に介在する2つのハイブリッドトークン単位のノイズ発生過程を提案し,過去の誤りを解消する。
論文参考訳（メタデータ） (2025-04-08T20:32:10Z)
Bridging Continuous and Discrete Tokens for Autoregressive Visual Generation [63.89280381800457]
本稿では,離散トークンのモデリングをシンプルに保ちながら,連続トークンの強力な表現能力を維持するTokenBridgeを提案する。本稿では,各特徴次元を独立に離散化し,軽量な自己回帰予測機構と組み合わせた次元ワイド量子化戦略を提案する。提案手法は,標準的なカテゴリー予測を用いて,連続的手法と同等に再現および生成品質を実現する。
論文参考訳（メタデータ） (2025-03-20T17:59:59Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Accelerated Diffusion Models via Speculative Sampling [89.43940130493233]
投機的サンプリングは、大規模言語モデルにおける推論を加速する一般的な手法である。我々は投機的サンプリングを拡散モデルに拡張し、連続したベクトル値のマルコフ連鎖を介してサンプルを生成する。本稿では,ドラフトモデルをトレーニングする必要のない,シンプルで効果的なアプローチを含む,さまざまなドラフト戦略を提案する。
論文参考訳（メタデータ） (2025-01-09T16:50:16Z)
RDPM: Solve Diffusion Probabilistic Models via Recurrent Token Prediction [17.005198258689035]
拡散確率モデル(DPM)は、高忠実度画像合成のデファクトアプローチとして登場した。本稿では, 再帰的拡散確率モデル(RDPM, Recurrent Diffusion Probabilistic Model)を提案する。
論文参考訳（メタデータ） (2024-12-24T12:28:19Z)
Faster Language Models with Better Multi-Token Prediction Using Tensor Decomposition [5.575078692353885]
本稿では, 精度を損なうことなくサンプリング効率を向上させることを目的とした, 変圧器のマルチトークン予測のための新しいモデルを提案する。階数=r$標準確率分解に一般化することにより、複数のトークンを同時に予測する改良されたモデルを開発する。
論文参考訳（メタデータ） (2024-10-23T11:06:36Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Non-autoregressive Sequence-to-Sequence Vision-Language Models [63.77614880533488]
本稿では,デコーダ内の複数の推論経路をマージする並列デコードシーケンス・ツー・シーケンス・ビジョン言語モデルを提案する。このモデルは最先端の自己回帰モデルと同等のパフォーマンスを実現するが、推論時間では高速である。
論文参考訳（メタデータ） (2024-03-04T17:34:59Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Bayesian Flow Networks [4.585102332532472]
本稿では,ベイジアン・フロー・ネットワーク(BFN)について述べる。ベイジアン・フロー・ネットワーク(BFN)は,独立分布の集合のパラメータをベイジアン推論で修正した新しい生成モデルである。単純な事前および反復的な2つの分布の更新から始めると、拡散モデルの逆過程に似た生成手順が得られる。 BFNは動的にバイナライズされたMNISTとCIFAR-10で画像モデリングを行うために競合するログライクフレーションを実現し、text8文字レベルの言語モデリングタスクにおいて既知のすべての離散拡散モデルより優れている。
論文参考訳（メタデータ） (2023-08-14T09:56:35Z)
Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文参考訳（メタデータ） (2023-01-09T17:32:00Z)
Truncated Diffusion Probabilistic Models and Diffusion-based Adversarial Auto-Encoders [137.1060633388405]
拡散に基づく生成モデルは、逆拡散連鎖を推論してデータを生成する方法を学ぶ。我々は、データが純粋なランダムノイズになるまで、より高速で安価にノイズを付加するアプローチを提案する。提案手法は,拡散過程と学習可能な暗黙的前処理の両方によって付与された逆自動エンコーダとしてキャスト可能であることを示す。
論文参考訳（メタデータ） (2022-02-19T20:18:49Z)
Parameter Decoupling Strategy for Semi-supervised 3D Left Atrium Segmentation [0.0]
本稿では,パラメータ分離戦略に基づく半教師付きセグメンテーションモデルを提案する。提案手法は,Atrial Challengeデータセット上での最先端の半教師付き手法と競合する結果を得た。
論文参考訳（メタデータ） (2021-09-20T14:51:42Z)
Symbolic Music Generation with Diffusion Models [4.817429789586127]
本論文では,前訓練された可変オートエンコーダの連続潜空間における離散領域をパラメータ化することにより,連続データに対する拡散モデルを訓練する手法を提案する。同じ連続埋め込み上で動作する自己回帰型言語モデルと比較して,強い無条件生成とポストホック条件付インフィル結果を示す。
論文参考訳（メタデータ） (2021-03-30T05:48:05Z)
Haar Wavelet based Block Autoregressive Flows for Trajectories [129.37479472754083]
歩行者等の軌道予測は,自律型エージェントの性能向上に不可欠である。本稿では分割結合を利用した新しいハールウェーブレットに基づくブロック自己回帰モデルを提案する。実世界の2つのデータセット上で、多種多様な正確な軌跡を生成するアプローチの利点について説明する。
論文参考訳（メタデータ） (2020-09-21T13:57:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。