Fugu-MT 論文翻訳(概要): Energy-Based Diffusion Language Models for Text Generation

論文の概要: Energy-Based Diffusion Language Models for Text Generation

arxiv url: http://arxiv.org/abs/2410.21357v3
Date: Fri, 28 Feb 2025 08:41:03 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-03 16:38:45.10445
Title: Energy-Based Diffusion Language Models for Text Generation
Title（参考訳）: テキスト生成のためのエネルギーベース拡散言語モデル
Authors: Minkai Xu, Tomas Geffner, Karsten Kreis, Weili Nie, Yilun Xu, Jure Leskovec, Stefano Ermon, Arash Vahdat,
Abstract要約: エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
参考スコア（独自算出の注目度）: 126.23425882687195
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite remarkable progress in autoregressive language models, alternative generative paradigms beyond left-to-right generation are still being actively explored. Discrete diffusion models, with the capacity for parallel generation, have recently emerged as a promising alternative. Unfortunately, these models still underperform the autoregressive counterparts, with the performance gap increasing when reducing the number of sampling steps. Our analysis reveals that this degradation is a consequence of an imperfect approximation used by diffusion models. In this work, we propose Energy-based Diffusion Language Model (EDLM), an energy-based model operating at the full sequence level for each diffusion step, introduced to improve the underlying approximation used by diffusion models. More specifically, we introduce an EBM in a residual form, and show that its parameters can be obtained by leveraging a pretrained autoregressive model or by finetuning a bidirectional transformer via noise contrastive estimation. We also propose an efficient generation algorithm via parallel important sampling. Comprehensive experiments on language modeling benchmarks show that our model can consistently outperform state-of-the-art diffusion models by a significant margin, and approaches autoregressive models' perplexity. We further show that, without any generation performance drop, our framework offers a 1.3$\times$ sampling speedup over existing diffusion models.
Abstract（参考訳）: 自己回帰言語モデルの顕著な進歩にもかかわらず、左から右への生成以外の別の生成パラダイムは、現在も活発に研究されている。並列生成能力を持つ離散拡散モデルは、最近、有望な代替手段として登場した。残念なことに、これらのモデルは、サンプリングステップの数を減らせばパフォーマンスのギャップが増加するため、自己回帰モデルよりも依然としてパフォーマンスが低い。解析の結果, この劣化は拡散モデルによる不完全近似の結果であることがわかった。本研究では,各拡散ステップのフルシーケンスレベルで動作するエネルギーベース拡散言語モデル(EDLM)を提案する。具体的には,ESMを残留形で導入し,事前学習した自己回帰モデルを利用したり,ノイズコントラスト推定によって双方向トランスフォーマーを微調整することで,そのパラメータが得られることを示す。また,並列重要サンプリングによる効率的な生成アルゴリズムを提案する。言語モデリングベンチマークに関する総合的な実験により、我々のモデルは最先端の拡散モデルよりも大幅に優れており、自己回帰モデルの難易度にアプローチできることが示されている。さらに,既存の拡散モデルよりも1.3$\times$サンプリングの高速化を実現している。

関連論文リスト

One-step Language Modeling via Continuous Denoising [36.18484491074519]
本研究では,フローベース連続デノゲーションを利用した言語モデルが,品質と速度の両面で離散拡散よりも優れていることを示す。我々の研究は、離散拡散過程は離散モダリティ上の生成的モデリングに必要である、という広く支持されている仮説に疑問を投げかける。
論文参考訳（メタデータ） (2026-02-18T19:23:07Z)
Efficient Parallel Samplers for Recurrent-Depth Models and Their Connection to Diffusion Language Models [42.52335470079319]
繰り返し深度を持つ言語モデルは、層を繰り返して計算量を増やす能力によって定義される。プレトレーニングにおける最近の取り組みは、これらのアーキテクチャが現代の言語モデリングタスクにスケールできることを実証している。我々はこれらのモデルのための新しい拡散強制サンプリング器を開発し、生成を加速する。
論文参考訳（メタデータ） (2025-10-16T17:59:07Z)
Diffusion models for multivariate subsurface generation and efficient probabilistic inversion [0.0]
拡散モデルは、深い生成モデリングタスクのための安定したトレーニングと最先端のパフォーマンスを提供する。本稿では拡散モデルに固有のノイズ汚染を考慮した近似法を提案する。統計的ロバスト性は有意に向上し, 後部確率密度関数のサンプリングが向上した。
論文参考訳（メタデータ） (2025-07-21T17:10:16Z)
A Convergence Theory for Diffusion Language Models: An Information-Theoretic Perspective [8.15094483029656]
拡散モデルは並列トークンサンプリングを可能にし、より高速な生成と左から右への生成制約を排除する。我々は情報理論の観点から拡散言語モデルの収束保証を開発する。これらの結果は拡散言語モデルの実用性に関する新たな理論的洞察を与える。
論文参考訳（メタデータ） (2025-05-27T16:24:20Z)
Continuous Diffusion Model for Language Modeling [57.396578974401734]
離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
論文参考訳（メタデータ） (2025-02-17T08:54:29Z)
Causal Diffusion Transformers for Generative Modeling [19.919979972882466]
本稿では,Diffusionモデルの自己回帰(AR)モデルとしてCausal Diffusionを紹介する。 CaulFusionはデコーダのみのトランスフォーマーで、シーケンシャルトークンと拡散ノイズレベルにまたがるデータを二重化する。
論文参考訳（メタデータ） (2024-12-16T18:59:29Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
The Missing U for Efficient Diffusion Models [3.712196074875643]
拡散確率モデル(Diffusion Probabilistic Models)は、画像合成、ビデオ生成、分子設計などのタスクにおいて、記録破りのパフォーマンスをもたらす。それらの能力にもかかわらず、その効率、特に逆過程では、収束速度が遅いことと計算コストが高いため、依然として課題である。本研究では,連続力学系を利用した拡散モデルのための新しいデノナイジングネットワークの設計手法を提案する。
論文参考訳（メタデータ） (2023-10-31T00:12:14Z)
Discrete Diffusion Modeling by Estimating the Ratios of the Data Distribution [67.9215891673174]
離散空間に対するスコアマッチングを自然に拡張する新たな損失として,スコアエントロピーを提案する。標準言語モデリングタスク上で,Score Entropy Discrete Diffusionモデルをテストする。
論文参考訳（メタデータ） (2023-10-25T17:59:12Z)
A Reparameterized Discrete Diffusion Model for Text Generation [39.0145272152805]
本研究は, 離散拡散確率モデルと自然言語生成への応用に関する研究である。離散拡散過程からサンプリングの代替的かつ等価な定式化を導出する。本研究では,既存の拡散モデルに対して,テキスト生成能力を評価するための広範囲な実験を行った。
論文参考訳（メタデータ） (2023-02-11T16:26:57Z)
Diffusion Glancing Transformer for Parallel Sequence to Sequence Learning [52.72369034247396]
モーダリティ拡散プロセスと残差グランシングサンプリングを併用した拡散グランシング変換器を提案する。 DIFFGLATは、自己回帰モデルと非自己回帰モデルの両方と比較して、高速な復号速度を維持しながら、より優れた生成精度を実現する。
論文参考訳（メタデータ） (2022-12-20T13:36:25Z)
Diffusion Models in Vision: A Survey [80.82832715884597]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (2022-09-10T22:00:30Z)
A Survey on Generative Diffusion Model [75.93774014861978]
拡散モデルは、深層生成モデルの新たなクラスである。時間を要する反復生成過程や高次元ユークリッド空間への閉じ込めなど、いくつかの制限がある。本調査では,拡散モデルの向上を目的とした高度な手法を多数提示する。
論文参考訳（メタデータ） (2022-09-06T16:56:21Z)
Diffusion Models: A Comprehensive Survey of Methods and Applications [10.557289965753437]
拡散モデル(英: Diffusion model)は、密度理論の確立を伴う様々なタスクにおいて印象的な結果を示す深層生成モデルのクラスである。近年,拡散モデルの性能向上への熱意が高まっている。
論文参考訳（メタデータ） (2022-09-02T02:59:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。