論文の概要: Diffusion Language Models Generation Can Be Halted Early
- arxiv url: http://arxiv.org/abs/2305.10818v4
- Date: Mon, 12 Feb 2024 09:34:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 01:06:42.626416
- Title: Diffusion Language Models Generation Can Be Halted Early
- Title(参考訳): 拡散言語モデルの生成は早期に停止できる
- Authors: Sofia Maria Lo Cicero Vaina, Nikita Balagansky, Daniil Gavrilov
- Abstract要約: 拡散言語モデル (DLMs) は, トラクタブル・コントロール可能生成における実用性から, テキスト生成の道のりとして有望である。
これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。
本稿では,この問題に対処するための新しい手法を提案する。
- 参考スコア(独自算出の注目度): 4.726777092009553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion Language models (DLMs) are a promising avenue for text generation
due to their practical properties on tractable controllable generation. They
also have the advantage of not having to predict text autoregressively.
However, despite these notable features, DLMs have not yet reached the
performance levels of their autoregressive counterparts. One of the ways to
reduce the performance gap between these two types of language models is to
speed up the generation of DLMs. Therefore, we propose a novel methodology to
address this issue in this work. It enables the execution of more generation
steps within a given time frame, leading to higher-quality outputs.
Specifically, our methods estimate DLMs completeness of text generation and
allow adaptive halting of the generation process. We evaluate our methods on
Plaid, SSD, and CDCD DLMs and create a cohesive perspective on their generation
workflows. Finally, we confirm that our methods allow halting these models and
decrease the generation time by $10$-$40$\% without a drop in the quality of
model samples.
- Abstract(参考訳): 拡散言語モデル (DLMs) は, トラクタブル制御可能生成における実用性から, テキスト生成に期待できる道である。
また、テキストを自己回帰的に予測する必要がないという利点もある。
しかし、これらの特徴にもかかわらず、DLMはまだ自己回帰的な性能レベルに達していない。
これら2種類の言語モデルのパフォーマンスギャップを減らす方法の1つは、DLMの生成を高速化することである。
そこで本研究では,この問題に対処するための新しい手法を提案する。
これにより、与えられた時間枠内でより多くの生成ステップの実行が可能になり、高品質な出力につながる。
具体的には,テキスト生成のdlms完全性を推定し,生成プロセスの適応停止を可能にする。
我々は,Plaid,SSD,CDCD DLM上での手法の評価を行い,その生成ワークフローに関する密な視点を創出する。
最後に,本手法はモデルサンプルの品質を低下させることなく,これらのモデルを停止させ,生成時間を10ドル~40ドル\%削減できることを確認した。
関連論文リスト
- Language Models can Self-Lengthen to Generate Long Texts [74.96074422345806]
本稿では,Self-Lengthenというイノベーティブな反復学習フレームワークを紹介する。
補助的なデータやプロプライエタリなモデルを必要としない、大規模言語モデルの本質的な知識とスキルのみを活用する。
ベンチマークと人的評価の実験により、Self-Lengthenは長文生成において既存の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-10-31T13:47:10Z) - DALD: Improving Logits-based Detector without Logits from Black-box LLMs [56.234109491884126]
大規模言語モデル(LLM)はテキスト生成に革命をもたらし、人間の文章を忠実に模倣する出力を生成する。
我々は、ブラックボックステキスト検出における最先端性能を再定義する革新的なフレームワークであるDLD(Dis Distribution-Aligned LLMs Detection)を提案する。
DALDは、サロゲートモデルの分布を未知の目標LLMの分布と整合させ、高速モデルの反復に対する検出能力とレジリエンスを向上するように設計されている。
論文 参考訳(メタデータ) (2024-06-07T19:38:05Z) - Zero-shot LLM-guided Counterfactual Generation for Text [15.254775341371364]
本稿では,大規模言語モデル (LLM) を汎用対実例生成器として利用する構造的手法を提案する。
ブラックボックスNLPモデルの評価と説明におけるゼロショット逆ファクトジェネレータとしてのLCMの有効性を実証する。
論文 参考訳(メタデータ) (2024-05-08T03:57:45Z) - Enforcing Paraphrase Generation via Controllable Latent Diffusion [60.82512050963046]
textitLatent textitDiffusion textitParaphraser(LDP)を提案する。
実験により, LDPはベースラインに比べて改良され, 多様なパラフレーズ生成を達成できることが示された。
論文 参考訳(メタデータ) (2024-04-13T09:24:32Z) - Text-Guided Molecule Generation with Diffusion Language Model [23.170313481324598]
拡散言語モデル(TGM-DLM)を用いたテキストガイド型分子生成法を提案する。
TGM-DLMは、2相拡散生成プロセスを用いてSMILES文字列内にトークンの埋め込みをまとめ、反復的に更新する。
我々は、TGM-DLMが、追加のデータリソースを必要とせずに、自動回帰モデルであるMolT5-Baseより優れていることを実証する。
論文 参考訳(メタデータ) (2024-02-20T14:29:02Z) - PLANNER: Generating Diversified Paragraph via Latent Language Diffusion Model [37.2192243883707]
本稿では,潜在意味の拡散と自己回帰生成を組み合わせ,流動的なテキストを生成するモデルであるPLANNERを提案する。
意味生成, テキスト補完, 要約の結果は, 高品質な長文を生成する上での有効性を示す。
論文 参考訳(メタデータ) (2023-06-05T01:36:39Z) - Extrapolating Multilingual Understanding Models as Multilingual
Generators [82.1355802012414]
本稿では,多言語理解モデルに統一モデルを得るための生成能力を付与する手法について検討する。
少数の新しいパラメータを持つ多言語ジェネレータにエンコーダを適用するために,textbfSemantic-textbfGuided textbfAlignment-then-Denoising (SGA)アプローチを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:33:21Z) - ELMER: A Non-Autoregressive Pre-trained Language Model for Efficient and
Effective Text Generation [97.64625999380425]
事前学習言語モデル(PLM)のアプローチによるテキスト生成タスクについて検討する。
早期出口技術を活用することで、ELMERは予測信頼度に応じて異なるレイヤでのトークン生成を可能にする。
3つのテキスト生成タスクの実験では、EMMERはNARモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-10-24T14:46:47Z) - POINTER: Constrained Progressive Text Generation via Insertion-based
Generative Pre-training [93.79766670391618]
ハードコントラストテキスト生成のための新しい挿入ベースアプローチであるPOINTERを提案する。
提案手法は,既存のトークン間で段階的に新しいトークンを並列に挿入することによって動作する。
結果として生じる粗大な階層構造は、生成プロセスを直感的で解釈可能である。
論文 参考訳(メタデータ) (2020-05-01T18:11:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。