論文の概要: SideControl: Controlled Open-domain Dialogue Generation via Additive
Side Networks
- arxiv url: http://arxiv.org/abs/2109.01958v1
- Date: Sun, 5 Sep 2021 01:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-07 16:45:33.350467
- Title: SideControl: Controlled Open-domain Dialogue Generation via Additive
Side Networks
- Title(参考訳): SideControl: 付加側ネットワークによるオープンドメイン対話生成制御
- Authors: Wanyu Du, Yangfeng Ji
- Abstract要約: そこで我々は,SideControlフレームワークを用いてトランスフォーマーに基づく事前学習言語モデルの生成を制御する手法を提案する。
その結果、SideControlフレームワークは、既存のグラデーションベースや重み付きデコードベースラインよりも、制御性、生成品質、サンプル効率が向上していることがわかった。
- 参考スコア(独自算出の注目度): 10.607177634432214
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Transformer-based pre-trained language models boost the performance of
open-domain dialogue systems. Prior works leverage Transformer-based
pre-trained language models to generate texts with desired attributes in two
general approaches: (1) gradient-based methods: updating all latent
representations of pre-trained models with gradients from attribute models; (2)
weighted-decoding methods: re-ranking beam candidates from pre-trained models
with attribute functions. However, gradient-based methods lead to high
computation cost and can easily get overfitted on small training sets, while
weighted-decoding methods are inherently constrained by the low-variance
high-bias pre-trained model. In this work, we propose a novel approach to
control the generation of Transformer-based pre-trained language models: the
SideControl framework, which leverages a novel control attributes loss to
incorporate useful control signals, and is shown to perform well with very
limited training samples. We evaluate our proposed method on two benchmark
open-domain dialogue datasets, and results show that the SideControl framework
has better controllability, higher generation quality and better
sample-efficiency than existing gradient-based and weighted-decoding baselines.
- Abstract(参考訳): トランスフォーマティブベースの事前学習言語モデルにより、オープンドメイン対話システムの性能が向上する。
先行研究はTransformerベースの事前学習言語モデルを利用して、2つの一般的なアプローチで所望の属性を持つテキストを生成する。 1) 勾配ベースのメソッド: 属性モデルからの勾配で事前学習されたモデルの潜在表現を更新する。
しかし、勾配に基づく手法は高い計算コストをもたらし、低分散ハイバイアス事前学習モデルにより重み付き復号法が本質的に制約される一方で、小さなトレーニングセットに容易に過度に適合する。
本研究では,トランスフォーマーをベースとした事前学習型言語モデルを生成するための新しい手法を提案する。SideControlフレームワークは,新しい制御属性の損失を利用して,有用な制御信号を組み込むことで,非常に限られたトレーニングサンプルで良好に動作することを示す。
提案手法を2つのベンチマークオープンドメイン対話データセットで評価した結果,SideControlフレームワークは既存の勾配ベースおよび重み付きデコードベースラインよりも制御性,生成品質,サンプル効率がよいことがわかった。
関連論文リスト
- Unsupervised Pre-training with Language-Vision Prompts for Low-Data Instance Segmentation [105.23631749213729]
低データ体制における教師なし事前学習のための新しい手法を提案する。
最近成功したプロンプト技術に触発されて,言語ビジョンプロンプトを用いた教師なし事前学習法を導入した。
提案手法は,低データ方式のCNNモデルよりも高速に収束し,性能がよいことを示す。
論文 参考訳(メタデータ) (2024-05-22T06:48:43Z) - Improving Pre-trained Language Model Fine-tuning with Noise Stability
Regularization [94.4409074435894]
本稿では,LNSR(Layerwise Noise Stability Regularization)という,新規かつ効果的な微調整フレームワークを提案する。
具体的には、標準ガウス雑音を注入し、微調整モデルの隠れ表現を正規化することを提案する。
提案手法は,L2-SP,Mixout,SMARTなど他の最先端アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-06-12T04:42:49Z) - On the Role of Bidirectionality in Language Model Pre-Training [85.14614350372004]
本研究では,次のトークン予測,テキスト入力,ゼロショットプライミング,微調整における双方向性の役割について検討する。
最大6.7Bのパラメータを持つモデルをトレーニングし、スケールで一貫性のある相違点を見つけます。
論文 参考訳(メタデータ) (2022-05-24T02:25:05Z) - Learning from Bootstrapping and Stepwise Reinforcement Reward: A
Semi-Supervised Framework for Text Style Transfer [30.622772801446132]
テキストスタイル転送のための半教師付きフレームワークを提案する。
まず、擬似並列ペアを自動構築し、教師付きで学習プロセスをブートストラップする。
そして、モデルは強化報酬を通じてラベルなしのデータから学習する。
論文 参考訳(メタデータ) (2022-05-19T05:18:06Z) - Learning Instance-Specific Adaptation for Cross-Domain Segmentation [79.61787982393238]
クロスドメイン画像セグメンテーションのためのテスト時間適応法を提案する。
テスト時に新しい目に見えないインスタンスが与えられると、インスタンス固有のBatchNormキャリブレーションを実行することで、事前トレーニングされたモデルを適用します。
論文 参考訳(メタデータ) (2022-03-30T17:59:45Z) - Controllable Natural Language Generation with Contrastive Prefixes [120.12778570283956]
GPT2生成は、自然言語生成を操るために、プレフィックスと呼ばれる小さな属性固有のベクトルのセットを利用する。
単一アスペクト制御のための接頭辞を訓練するための新しい教師なし手法と教師なし手法を提案する。
単一アスペクト制御と多アスペクト制御の両方の実験結果から,提案手法は高い言語的品質を維持しつつ,所望の属性に向かって生成を導くことができることがわかった。
論文 参考訳(メタデータ) (2022-02-27T00:31:03Z) - Bridging Pre-trained Models and Downstream Tasks for Source Code
Understanding [13.65914588243695]
本稿では,事前学習されたモデルとコード関連タスクをブリッジする手法を提案する。
我々は、下流データの多様性を豊かにする意味保存変換を利用する。
本稿では,既存の事前学習モデルを微調整するために,変換されたデータを手軽に整理するためのカリキュラム学習を紹介する。
論文 参考訳(メタデータ) (2021-12-04T07:21:28Z) - Controlled Text Generation as Continuous Optimization with Multiple
Constraints [23.71027518888138]
事前学習したモデルから制御可能な推論を行うためのフレキシブルでモジュラーなアルゴリズムを提案する。
所望のテキストを生成するために,ラグランジアン乗算器と勾配差に基づく手法を用いる。
我々は,複数の文レベル属性を用いた制御可能な機械翻訳とスタイル変換のアプローチを評価する。
論文 参考訳(メタデータ) (2021-08-04T05:25:20Z) - Accelerating Training of Transformer-Based Language Models with
Progressive Layer Dropping [24.547833264405355]
提案手法は, サンプルあたり平均24%の時間短縮を実現し, プレトレーニングをベースラインの2.5倍の速度で行うことができる。
トレーニング済みのモデルでは,より高速ながら,強力な知識伝達能力を備え,ベースラインよりも高いGLUEスコアを達成できる。
論文 参考訳(メタデータ) (2020-10-26T06:50:07Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。