論文の概要: Quantized Embedding Vectors for Controllable Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2402.10107v1
- Date: Thu, 15 Feb 2024 17:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:51:02.007295
- Title: Quantized Embedding Vectors for Controllable Diffusion Language Models
- Title(参考訳): 制御可能な拡散言語モデルのための量子埋め込みベクトル
- Authors: Cheng Kang, Xinye Chen, Yong Hu, Daniel Novak
- Abstract要約: Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
- 参考スコア(独自算出の注目度): 1.3287140837287783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the controllability, portability, and inference speed of diffusion
language models (DLMs) is a key challenge in natural language generation. While
recent research has shown significant success in complex text generation with
language models, the memory and computational power are still very demanding
and fall short of expectations, which naturally results in low portability and
instability for the models. To mitigate these issues, numerous well-established
methods were proposed for neural network quantization. To further enhance their
portability of independent deployment as well as improve their stability
evaluated by language perplexity, we propose a novel approach called the
Quantized Embedding Controllable Diffusion Language Model (QE-CDLM). QE-CDLM
builds upon the recent successful controllable DLMs by remodeling the
task-specific embedding space via quantization. This leads to a gradient-based
controller for the generation tasks, and more stable intermediate latent
variables are obtained, which naturally brings in an accelerated convergence as
well as better controllability. Additionally, the adaption fine-tuning method
is employed to reduce tunable weights. Experimental results on five challenging
fine-grained control tasks demonstrate that QE-CDLM compares favorably to
existing methods in terms of quality and feasibility, achieving better
perplexity and lightweight fine-tuning.
- Abstract(参考訳): 拡散言語モデル(DLM)の制御性、移植性、推論速度の向上は、自然言語生成において重要な課題である。
近年の研究では、言語モデルによる複雑なテキスト生成が顕著に成功したが、メモリと計算能力は依然として期待に届かず、モデルに対する移植性や不安定性が低下している。
これらの問題を緩和するため、ニューラルネットワーク量子化のための多くの確立された手法が提案された。
独立デプロイメントの可搬性をさらに向上させ,言語難易度によって評価される安定性を向上させるために,量子埋め込み制御拡散言語モデル(QE-CDLM)と呼ばれる新しいアプローチを提案する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
これにより、生成タスクの勾配ベースのコントローラが得られ、より安定した中間潜伏変数が得られ、自然に収束が加速され、制御性が向上する。
また、調整可能な重量を減らすために適応微調整法を用いる。
難易度制御タスク5つの実験結果から,QE-CDLMは従来手法と品質,実現可能性の面で良好に比較でき,難易度と軽量な微調整が可能であった。
関連論文リスト
- LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-20T17:25:23Z) - Test-time Adaptive Vision-and-Language Navigation [75.50521064106732]
視覚・言語ナビゲーションのためのFSTTA(Fast-Slow Test-Time Adaptation)アプローチを提案する。
高速更新フェーズでは、最近のマルチステップナビゲーションプロセスで発生する勾配を、さまざまなレベルの一貫性を持つコンポーネントに分解する。
遅い更新フェーズでは、歴史的に記録されたパラメータを収集し、同様の分解蓄積分析を行い、モデルを安定状態に戻す。
論文 参考訳(メタデータ) (2023-11-22T07:47:39Z) - Decomposing Uncertainty for Large Language Models through Input
Clarification Ensembling [74.00331519233026]
大規模言語モデル(LLM)のための不確実性分解フレームワークを提案する。
我々のフレームワークは入力の一連の明確化を生成し、それらを固定LLMに入力し、対応する予測をアンサンブルする。
実験により,提案手法は様々なタスクに対して正確かつ確実な不確実性定量化を提供することを示した。
論文 参考訳(メタデータ) (2023-11-15T05:58:35Z) - Simultaneous Machine Translation with Large Language Models [51.470478122113356]
我々は,SimulMTタスクに大規模言語モデルを適用する可能性を検討する。
MUST-Cデータセットと異なる9言語でtextttLlama2-7b-chatモデルを用いて実験を行った。
その結果,LLM は BLEU と LAAL の指標で専用MT モデルよりも優れていた。
論文 参考訳(メタデータ) (2023-09-13T04:06:47Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。
拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。
本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文 参考訳(メタデータ) (2022-05-27T20:12:09Z) - Evaluating the Robustness of Neural Language Models to Input
Perturbations [7.064032374579076]
本研究では,雑音の多い入力テキストをシミュレートするために,文字レベルおよび単語レベルの摂動法を設計し,実装する。
本稿では,BERT,XLNet,RoBERTa,ELMoなどの高性能言語モデルを用いて,入力摂動の異なるタイプの処理能力について検討する。
その結果, 言語モデルは入力摂動に敏感であり, 小さな変化が生じても性能が低下することが示唆された。
論文 参考訳(メタデータ) (2021-08-27T12:31:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。