論文の概要: Why mask diffusion does not work
- arxiv url: http://arxiv.org/abs/2510.03289v1
- Date: Mon, 29 Sep 2025 12:07:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:58.719282
- Title: Why mask diffusion does not work
- Title(参考訳): なぜマスク拡散が機能しないのか
- Authors: Haocheng Sun, Cynthia Xin Wen, Edward Hong Wang,
- Abstract要約: 自己回帰(AR)モデルよりも拡散言語モデルの主な利点は、並列生成と双方向の注意を支援する能力にある。
近年、オープンソースのマスク拡散言語モデルが登場し、そのほとんどは吸収拡散として知られる変種に基づいている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The main advantages of diffusion language models over autoregressive (AR) models lie in their ability to support parallel generation and bidirectional attention, enabling a more controllable generation process. In recent years, open-source mask diffusion language models have emerged, most of which are based on a variant known as absorbing diffusion. However, this paper demonstrates why mask diffusion faces inherent difficulties in achieving parallel generation and bidirectional attention. We also propose the most effective training and inference strategies for mask diffusion.
- Abstract(参考訳): 自己回帰(AR)モデルよりも拡散言語モデルの主な利点は、並列生成と双方向の注意をサポートする能力にあり、より制御可能な生成プロセスを可能にすることである。
近年、オープンソースのマスク拡散言語モデルが登場し、そのほとんどは吸収拡散として知られる変種に基づいている。
しかし,本稿では,マスク拡散が並列生成や双方向の注意を喚起する上で,固有の困難に直面している理由を示す。
また,マスク拡散に対する最も効果的なトレーニングと推論戦略を提案する。
関連論文リスト
- Why Masking Diffusion Works: Condition on the Jump Schedule for Improved Discrete Diffusion [44.51145995160038]
マルコフ過程は不連続なジャンプによって一定の速度で進化する。
他の離散拡散モデルとは異なり、マスク拡散はジャンプ時間の既知の分布に構築され、どこにジャンプするかしか学ばない。
論文 参考訳(メタデータ) (2025-06-10T00:58:25Z) - Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。
ノイズ発生過程の設計において、より柔軟性の高い離散拡散(GIDD)を補間する新しいファミリを一般化する。
GIDDの柔軟性をエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索し、サンプル品質を向上する。
論文 参考訳(メタデータ) (2025-03-06T14:30:55Z) - Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。
私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。
言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文 参考訳(メタデータ) (2024-06-11T17:51:40Z) - Guided Diffusion from Self-Supervised Diffusion Features [49.78673164423208]
ガイダンスは拡散モデルにおいて重要な概念として機能するが、その効果は追加のデータアノテーションや事前学習の必要性によって制限されることが多い。
本稿では,拡散モデルからガイダンスを抽出するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-14T11:19:11Z) - A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。
具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。
我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文 参考訳(メタデータ) (2023-04-10T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。