論文の概要: Quantized Embedding Vectors for Controllable Diffusion Language Models
- arxiv url: http://arxiv.org/abs/2402.10107v1
- Date: Thu, 15 Feb 2024 17:02:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 14:51:02.007295
- Title: Quantized Embedding Vectors for Controllable Diffusion Language Models
- Title(参考訳): 制御可能な拡散言語モデルのための量子埋め込みベクトル
- Authors: Cheng Kang, Xinye Chen, Yong Hu, Daniel Novak
- Abstract要約: Quantized Embedding Controllable Diffusion Language Modelは、言語モデルの制御性、移植性、推論速度を改善する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
- 参考スコア(独自算出の注目度): 1.3287140837287783
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Improving the controllability, portability, and inference speed of diffusion
language models (DLMs) is a key challenge in natural language generation. While
recent research has shown significant success in complex text generation with
language models, the memory and computational power are still very demanding
and fall short of expectations, which naturally results in low portability and
instability for the models. To mitigate these issues, numerous well-established
methods were proposed for neural network quantization. To further enhance their
portability of independent deployment as well as improve their stability
evaluated by language perplexity, we propose a novel approach called the
Quantized Embedding Controllable Diffusion Language Model (QE-CDLM). QE-CDLM
builds upon the recent successful controllable DLMs by remodeling the
task-specific embedding space via quantization. This leads to a gradient-based
controller for the generation tasks, and more stable intermediate latent
variables are obtained, which naturally brings in an accelerated convergence as
well as better controllability. Additionally, the adaption fine-tuning method
is employed to reduce tunable weights. Experimental results on five challenging
fine-grained control tasks demonstrate that QE-CDLM compares favorably to
existing methods in terms of quality and feasibility, achieving better
perplexity and lightweight fine-tuning.
- Abstract(参考訳): 拡散言語モデル(DLM)の制御性、移植性、推論速度の向上は、自然言語生成において重要な課題である。
近年の研究では、言語モデルによる複雑なテキスト生成が顕著に成功したが、メモリと計算能力は依然として期待に届かず、モデルに対する移植性や不安定性が低下している。
これらの問題を緩和するため、ニューラルネットワーク量子化のための多くの確立された手法が提案された。
独立デプロイメントの可搬性をさらに向上させ,言語難易度によって評価される安定性を向上させるために,量子埋め込み制御拡散言語モデル(QE-CDLM)と呼ばれる新しいアプローチを提案する。
QE-CDLMは、最近成功した制御可能なDLMの上に構築され、量子化によってタスク固有の埋め込み空間をモデル化する。
これにより、生成タスクの勾配ベースのコントローラが得られ、より安定した中間潜伏変数が得られ、自然に収束が加速され、制御性が向上する。
また、調整可能な重量を減らすために適応微調整法を用いる。
難易度制御タスク5つの実験結果から,QE-CDLMは従来手法と品質,実現可能性の面で良好に比較でき,難易度と軽量な微調整が可能であった。
関連論文リスト
- Enhancing Multi-Step Reasoning Abilities of Language Models through Direct Q-Function Optimization [50.485788083202124]
強化学習(Reinforcement Learning, RL)は、大規模言語モデルを人間の好みと整合させ、複雑なタスクを遂行する能力を向上させる上で重要な役割を担っている。
反応生成過程をマルコフ決定プロセス(MDP)として定式化し,ソフトアクター・クリティック(SAC)フレームワークを用いて,言語モデルによって直接パラメータ化されたQ関数を最適化する,直接Q関数最適化(DQO)を提案する。
GSM8KとMATHという2つの数学問題解決データセットの実験結果から、DQOは従来の手法よりも優れており、言語モデルを整合させるための有望なオフライン強化学習手法として確立されている。
論文 参考訳(メタデータ) (2024-10-11T23:29:20Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Unconditional Truthfulness: Learning Conditional Dependency for Uncertainty Quantification of Large Language Models [96.43562963756975]
対象変数が条件と非条件生成信頼度のギャップである回帰モデルを訓練する。
この学習条件依存モデルを用いて、前のステップの不確実性に基づいて、現在の生成ステップの不確かさを変調する。
論文 参考訳(メタデータ) (2024-08-20T09:42:26Z) - Advancing Multimodal Large Language Models with Quantization-Aware Scale Learning for Efficient Adaptation [70.22782550540714]
QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールルアーニング法
本稿では、QSLAWと呼ばれるマルチモーダルワームアップに基づく量子化対応スケールLeArning手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T12:42:09Z) - Unveiling LLM Mechanisms Through Neural ODEs and Control Theory [3.4039202831583903]
本研究では,Large Language Models(LLMs)における入力と出力の複雑な関係を明らかにするために,ニューラル正規微分方程式を用いる。
ニューラルネットワークは、LLM内のデータの継続的な進化を捉えるダイナミックモデルを提供することによって、この研究において重要な役割を担っている。
堅牢な制御メカニズムは、モデルのアウトプットを戦略的に調整するために適用され、高い品質と信頼性を維持するだけでなく、特定のパフォーマンス基準に従うことを保証する。
論文 参考訳(メタデータ) (2024-06-23T22:56:34Z) - COPAL: Continual Pruning in Large Language Generative Models [23.747878534962663]
COPALは、連続的なモデル適応設定の下で、大規模言語生成モデルを解析するために開発されたアルゴリズムである。
LLMの様々なサイズに対する実験的な評価は,COPALがベースラインモデルより優れていることを示している。
論文 参考訳(メタデータ) (2024-05-02T18:24:41Z) - PID Control-Based Self-Healing to Improve the Robustness of Large Language Models [23.418411870842178]
マイナーな摂動は、よく訓練された言語モデルの性能を大幅に低下させる。
我々は、望ましくないモデル行動を修正するために、計算効率の良い自己修復プロセスを構築した。
提案したPID制御による自己修復は、事前訓練された大規模言語モデルの堅牢性を改善するための低コストなフレームワークである。
論文 参考訳(メタデータ) (2024-03-31T23:46:51Z) - LlaMaVAE: Guiding Large Language Model Generation via Continuous Latent
Sentence Spaces [1.529963465178546]
本稿では,表現型エンコーダモデルとデコーダモデル(SentenceT5,LlaMA)とVAEアーキテクチャを組み合わせたLlaMaVAEを提案する。
実験の結果、LlaMaVAEは従来の最先端のVAE言語モデルであるOptimusよりも、様々なタスクで優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-20T17:25:23Z) - Tailoring Language Generation Models under Total Variation Distance [55.89964205594829]
ニューラルネットワーク生成の標準パラダイムは、最適化方法として最大推定(MLE)を採用する。
言語生成に適用するための実践的境界を開発する。
本稿では,TVD推定のトレードオフのバランスをとるためのTaiLr の目標について紹介する。
論文 参考訳(メタデータ) (2023-02-26T16:32:52Z) - Diffusion-LM Improves Controllable Text Generation [80.50044830018442]
言語モデル(LM)の振る舞いを再学習せずに制御することは、自然言語生成において大きな問題である。
拡散-LMと呼ばれる連続拡散に基づく非自己回帰型言語モデルを開発した。
本研究では,6つのきめ細粒度制御タスクに対してDiffusion-LMの制御に成功したことを実証した。
論文 参考訳(メタデータ) (2022-05-27T20:12:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。