論文の概要: Democratized Diffusion Language Model
- arxiv url: http://arxiv.org/abs/2305.10818v1
- Date: Thu, 18 May 2023 08:56:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 16:15:25.328415
- Title: Democratized Diffusion Language Model
- Title(参考訳): 民主化拡散言語モデル
- Authors: Nikita Balagansky, Daniil Gavrilov
- Abstract要約: 本稿では,Categorical Data (CDCD) フレームワークに基づく,民主化拡散言語モデル(DDLM)を提案する。
C4データセットを用いたDDLMの簡易なトレーニング手順を提案し、訓練されたモデルの振る舞いを詳細に分析する。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the potential benefits of Diffusion Models for NLP applications,
publicly available implementations, trained models, or reproducible training
procedures currently need to be publicly available. We present the Democratized
Diffusion Language Model (DDLM), based on the Continuous Diffusion for
Categorical Data (CDCD) framework, to address these challenges. We propose a
simplified training procedure for DDLM using the C4 dataset and perform an
in-depth analysis of the trained model's behavior. Furthermore, we introduce a
novel early-exiting strategy for faster sampling with models trained with score
interpolation. Since no previous works aimed at solving downstream tasks with
pre-trained Diffusion LM (e.g., classification tasks), we experimented with
GLUE Benchmark to study the ability of DDLM to transfer knowledge. With this
paper, we propose available training and evaluation pipelines to other
researchers and pre-trained DDLM models, which could be used in future research
with Diffusion LMs.
- Abstract(参考訳): NLPアプリケーションに対する拡散モデル(Diffusion Models)の潜在的なメリットにもかかわらず、公開実装、トレーニングされたモデル、あるいは再現可能なトレーニング手順は、現在公開する必要がある。
本稿では、これらの課題に対処するため、CDCD(Continuous Diffusion for Categorical Data)フレームワークに基づくDDLM(Retinuous Diffusion Language Model)を提案する。
C4データセットを用いたDDLMの簡易なトレーニング手順を提案し、訓練されたモデルの振る舞いを詳細に分析する。
さらに,スコア補間を訓練したモデルを用いて,高速サンプリングのための新しい早期抽出手法を提案する。
従来のDiffusion LM(例えば分類タスク)を用いた下流タスクの解決を目的とした研究は行われていなかったため、私たちはGLUE Benchmarkを用いてDDLMの知識伝達能力について実験した。
本稿では,Diffusion LMを用いた将来の研究に使用できる,他の研究者や事前学習型DDLMモデルに対して,トレーニングと評価パイプラインを提案する。
関連論文リスト
- Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Enforcing Paraphrase Generation via Controllable Latent Diffusion [60.82512050963046]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。
実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。
論文 参考訳(メタデータ) (2024-04-13T09:24:32Z) - Text-Guided Molecule Generation with Diffusion Language Model [23.170313481324598]
拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
論文 参考訳(メタデータ) (2024-02-20T14:29:02Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。