Fugu-MT 論文翻訳(概要): DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models

論文の概要: DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models

arxiv url: http://arxiv.org/abs/2211.15029v1
Date: Mon, 28 Nov 2022 03:25:49 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-29 17:37:27.286449
Title: DiffusionBERT: Improving Generative Masked Language Models with Diffusion Models
Title（参考訳）: DiffusionBERT: 拡散モデルによる生成的マスク言語モデルの改善
Authors: Zhengfu He, Tianxiang Sun, Kuanning Wang, Xuanjing Huang, Xipeng Qiu
Abstract要約: DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
参考スコア（独自算出の注目度）: 81.84866217721361
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present DiffusionBERT, a new generative masked language model based on discrete diffusion models. Diffusion models and many pre-trained language models have a shared training objective, i.e., denoising, making it possible to combine the two powerful models and enjoy the best of both worlds. On the one hand, diffusion models offer a promising training strategy that helps improve the generation quality. On the other hand, pre-trained denoising language models (e.g., BERT) can be used as a good initialization that accelerates convergence. We explore training BERT to learn the reverse process of a discrete diffusion process with an absorbing state and elucidate several designs to improve it. First, we propose a new noise schedule for the forward diffusion process that controls the degree of noise added at each step based on the information of each token. Second, we investigate several designs of incorporating the time step into BERT. Experiments on unconditional text generation demonstrate that DiffusionBERT achieves significant improvement over existing diffusion models for text (e.g., D3PM and Diffusion-LM) and previous generative masked language models in terms of perplexity and BLEU score.
Abstract（参考訳）: 離散拡散モデルに基づく新しい生成マスク付き言語モデルであるDiffusionBERTを提案する。拡散モデルと多くの事前訓練された言語モデルは共通の訓練目標、すなわち2つの強力なモデルを組み合わせ、両方の世界の最高のものを楽しむことができる。一方、拡散モデルは、生成品質を改善するための有望なトレーニング戦略を提供する。一方、事前訓練された言語モデル(例えばBERT)は収束を加速する優れた初期化として使用できる。我々は,離散拡散過程の逆過程を吸収状態で学習し,それを改善するためにいくつかの設計を解明するためにBERTを訓練する。まず,各ステップに付加される雑音の度合いを,各トークンの情報に基づいて制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。次に,時間ステップをBERTに組み込む設計について検討する。非条件テキスト生成の実験では、DiffusionBERTはテキストの既存の拡散モデル(例えば、D3PMとDiffusion-LM)や、パープレキシティとBLEUスコアの点で、以前の生成的マスキング言語モデルよりも大幅に改善されている。

関連論文リスト

One-step Language Modeling via Continuous Denoising [36.18484491074519]
本研究では,フローベース連続デノゲーションを利用した言語モデルが,品質と速度の両面で離散拡散よりも優れていることを示す。我々の研究は、離散拡散過程は離散モダリティ上の生成的モデリングに必要である、という広く支持されている仮説に疑問を投げかける。
論文参考訳（メタデータ） (2026-02-18T19:23:07Z)
Towards Latent Diffusion Suitable For Text [7.293508593001522]
NFDMの拡張である言語生成のためのニューラルフロー拡散モデルを導入し、離散状態空間への連続拡散モデルの直接適用を可能にする。本モデルでは, 従来の潜伏拡散モデルに匹敵する試料品質を達成しつつ, 自己回帰モデルと同一サイズの自己回帰モデルとの差を大幅に低減する。
論文参考訳（メタデータ） (2026-01-07T20:50:59Z)
Block Diffusion: Interpolating Between Autoregressive and Diffusion Language Models [15.853201399662344]
拡散言語モデルは自己回帰モデルよりも独特な利点を提供する。確率モデリングに遅れがあり、固定長生成に制限される。本稿では,離散化拡散モデルと自己回帰モデルとを補間するブロック拡散言語モデルについて紹介する。
論文参考訳（メタデータ） (2025-03-12T17:43:40Z)
Generalized Interpolating Discrete Diffusion [65.74168524007484]
仮面拡散はその単純さと有効性のために一般的な選択である。離散拡散過程を補間する一般族の理論的バックボーンを導出する。 GIDDのフレキシビリティをエクスプロイトし、マスクと均一ノイズを組み合わせたハイブリッドアプローチを探索する。
論文参考訳（メタデータ） (2025-03-06T14:30:55Z)
Energy-Based Diffusion Language Models for Text Generation [126.23425882687195]
エネルギーベース拡散言語モデル(Energy-based Diffusion Language Model, EDLM)は、拡散ステップごとに全シーケンスレベルで動作するエネルギーベースモデルである。我々のフレームワークは、既存の拡散モデルよりも1.3$times$のサンプリングスピードアップを提供する。
論文参考訳（メタデータ） (2024-10-28T17:25:56Z)
Scaling Diffusion Language Models via Adaptation from Autoregressive Models [105.70889434492143]
拡散言語モデル(DLM)は、テキスト生成モデルのための将来性のある新しいパラダイムとして登場した。 170Mから7BまでのARモデルをDiffuGPTとDiffuLLaMAの拡散モデルに変換し、200B未満のトークンでトレーニングできることを示す。実験の結果,これらのモデルは初期のDLMよりも優れており,ARと競合していることがわかった。
論文参考訳（メタデータ） (2024-10-23T14:04:22Z)
Simple and Effective Masked Diffusion Language Models [48.68198363304619]
単純なマスク付き離散拡散は以前考えられていたよりも性能が高いことを示す。私たちの目標はシンプルなフォーム -- 古典的なマスキング言語モデリング損失の混合です。言語モデリングベンチマークでは、現代のエンジニアリングプラクティスで訓練された様々なマスク付き拡散モデルが、新しい最先端技術を実現している。
論文参考訳（メタデータ） (2024-06-11T17:51:40Z)
Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文参考訳（メタデータ） (2024-02-15T18:59:18Z)
Likelihood-Based Diffusion Language Models [13.916640262862215]
自己回帰型言語モデルと拡散型言語モデルとのギャップを埋める第一歩を踏み出す。我々は、アルゴリズムの改善、法則のスケーリング、計算量の増加を通じて、この目標を追求する。我々はGPT-2 124Mをベンチマークデータセットで上回る大きな拡散言語モデルであるPlaid 1Bをリリースする。
論文参考訳（メタデータ） (2023-05-30T16:43:31Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
A Cheaper and Better Diffusion Language Model with Soft-Masked Noise [62.719656543880596]
Masked-Diffuse LMは言語モデリングのための新しい拡散モデルであり、言語の言語的特徴に触発されている。具体的には,テキストデータのノイズを改善するために,戦略的ソフトマスキングによってテキストに劣化を加える言語情報処理を設計する。我々は,我々のMasked-Diffuse LMが,高効率の最先端拡散モデルよりも優れた生成品質を達成できることを実証した。
論文参考訳（メタデータ） (2023-04-10T17:58:42Z)
MagicFusion: Boosting Text-to-Image Generation Performance by Fusing Diffusion Models [20.62953292593076]
本研究では,より制御可能な生成を実現するために,融合したテキスト誘導拡散モデルを実現するためのSNB (Saliency-aware Noise Blending) という,シンプルで効果的な手法を提案する。 SNBはトレーニングフリーであり、DDIMサンプリングプロセス内で完成することができる。さらに、マスクなどの追加アノテーションを必要とせずに、2つのノイズ空間のセマンティクスを自動的に調整することができる。
論文参考訳（メタデータ） (2023-03-23T09:30:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。