Fugu-MT 論文翻訳(概要): Continuous Diffusion Model for Language Modeling

論文の概要: Continuous Diffusion Model for Language Modeling

arxiv url: http://arxiv.org/abs/2502.11564v1
Date: Mon, 17 Feb 2025 08:54:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:45.16835
Title: Continuous Diffusion Model for Language Modeling
Title（参考訳）: 言語モデリングのための連続拡散モデル
Authors: Jaehyeong Jo, Sung Ju Hwang,
Abstract要約: 離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が限られている。本稿では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。
参考スコア（独自算出の注目度）: 57.396578974401734
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Diffusion models have emerged as a promising alternative to autoregressive models in modeling discrete categorical data. Yet diffusion models that directly work on discrete data space do not fully exploit the power of iterative refinement, as the signals are lost during the transition between discrete states. Existing continuous diffusion models for discrete data have limited performance compared to discrete approaches, and the unclear link between them restricts the development of diffusion models for discrete data. In this work, we propose a continuous diffusion model for language modeling that incorporates the geometry of the underlying categorical distribution. We establish a connection between the discrete diffusion and continuous flow on the statistical manifold, and building on the analogy, we introduce a simple design for the diffusion process that generalizes previous discrete diffusion models. We further propose a simulation-free training framework based on radial symmetry and a simple technique to address the high dimensionality of the manifold. Comprehensive experiments on language modeling benchmarks and other modalities show that our method outperforms existing discrete diffusion models and approaches the performance of autoregressive models. Codes available at \href{https://github.com/harryjo97/RDLM}{https://github.com/harryjo97/RDLM}.
Abstract（参考訳）: 拡散モデルは、離散分類データのモデリングにおいて自己回帰モデルに代わる有望な選択肢として現れてきた。しかし、離散データ空間に直接作用する拡散モデルは、離散状態間の遷移中に信号が失われるため、反復的洗練の力を完全に活用するわけではない。離散データに対する既存の連続拡散モデルは、離散的アプローチと比較して性能が制限されており、それらの間の不明瞭なリンクは離散的データに対する拡散モデルの開発を制限する。本研究では,下層の分類分布の幾何学を組み込んだ言語モデリングのための連続拡散モデルを提案する。統計多様体上の離散拡散と連続流の接続を確立し、類似性に基づいて、従来の離散拡散モデルを一般化する拡散過程の簡単な設計を導入する。さらに、放射対称性に基づくシミュレーション不要なトレーニングフレームワークと、多様体の高次元性に対処するための簡単な手法を提案する。言語モデルベンチマークやその他のモダリティに関する総合的な実験により、本手法は既存の離散拡散モデルよりも優れ、自己回帰モデルの性能にアプローチすることを示した。コードは \href{https://github.com/harryjo97/RDLM}{https://github.com/harryjo97/RDLM} で公開されている。

関連論文リスト

Diffusion models for multivariate subsurface generation and efficient probabilistic inversion [0.0]
拡散モデルは、深い生成モデリングタスクのための安定したトレーニングと最先端のパフォーマンスを提供する。本稿では拡散モデルに固有のノイズ汚染を考慮した近似法を提案する。統計的ロバスト性は有意に向上し, 後部確率密度関数のサンプリングが向上した。
論文参考訳（メタデータ） (2025-07-21T17:10:16Z)
Graph Representation Learning with Diffusion Generative Models [0.0]
我々は、グラフデータの意味のある埋め込みを学習するために、オートエンコーダフレームワーク内で離散拡散モデルを訓練する。本手法は,グラフ表現学習に使用する離散拡散モデルの可能性を示す。
論文参考訳（メタデータ） (2025-01-22T07:12:10Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Distillation of Discrete Diffusion through Dimensional Correlations [21.078500510691747]
「ミクチャー」モデルは、拡張性を維持しながら次元相関を扱える。ロス関数」により、混合モデルは、次元相関を学習することで、そのような多くのステップの従来のモデルをほんの数ステップに蒸留することができる。実験により,画像領域と言語領域をまたいだ事前学習した離散拡散モデルの蒸留において,提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-11T10:53:03Z)
Discrete Copula Diffusion [44.96934660818884]
離散拡散モデルがより少ないステップで強い性能を達成するのを防ぐ基本的な制限を同定する。我々は,コプラモデルと呼ばれる別の深層生成モデルを導入することで,欠落した依存情報を補うための一般的なアプローチを提案する。本手法は拡散モデルとコプラモデルの両方を微調整する必要はないが, 高い品質のサンプル生成が可能であり, 分解ステップが著しく少ない。
論文参考訳（メタデータ） (2024-10-02T18:51:38Z)
Constrained Diffusion Models via Dual Training [80.03953599062365]
拡散プロセスは、トレーニングデータセットのバイアスを反映したサンプルを生成する傾向がある。所望の分布に基づいて拡散制約を付与し,制約付き拡散モデルを構築する。本稿では,制約付き拡散モデルを用いて,目的と制約の最適なトレードオフを実現する混合データ分布から新しいデータを生成することを示す。
論文参考訳（メタデータ） (2024-08-27T14:25:42Z)
Convergence Analysis of Discrete Diffusion Model: Exact Implementation through Uniformization [17.535229185525353]
連続マルコフ連鎖の均一化を利用したアルゴリズムを導入し、ランダムな時間点の遷移を実装した。我々の結果は、$mathbbRd$における拡散モデルの最先端の成果と一致し、さらに$mathbbRd$設定と比較して離散拡散モデルの利点を浮き彫りにする。
論文参考訳（メタデータ） (2024-02-12T22:26:52Z)
Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文参考訳（メタデータ） (2023-12-14T11:19:11Z)
Infinite-Dimensional Diffusion Models [4.342241136871849]
拡散に基づく生成モデルを無限次元で定式化し、関数の生成モデルに適用する。我々の定式化は無限次元の設定においてよく成り立っていることを示し、サンプルから目標測度への次元非依存距離境界を提供する。また,無限次元拡散モデルの設計ガイドラインも作成する。
論文参考訳（メタデータ） (2023-02-20T18:00:38Z)
Unifying Diffusion Models' Latent Space, with Applications to CycleDiffusion and Guidance [95.12230117950232]
関係領域で独立に訓練された2つの拡散モデルから共通潜時空間が現れることを示す。テキスト・画像拡散モデルにCycleDiffusionを適用することで、大規模なテキスト・画像拡散モデルがゼロショット画像・画像拡散エディタとして使用できることを示す。
論文参考訳（メタデータ） (2022-10-11T15:53:52Z)
Diffusion Models in Vision: A Survey [73.10116197883303]
拡散モデルは、前方拡散段階と逆拡散段階の2つの段階に基づく深層生成モデルである。拡散モデルは、既知の計算負荷にもかかわらず、生成したサンプルの品質と多様性に対して広く評価されている。
論文参考訳（メタデータ） (2022-09-10T22:00:30Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。