論文の概要: Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models
- arxiv url: http://arxiv.org/abs/2206.05519v1
- Date: Sat, 11 Jun 2022 12:52:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-14 13:34:55.414701
- Title: Bridging the Gap Between Training and Inference of Bayesian Controllable
Language Models
- Title(参考訳): ベイズ可制御言語モデルの訓練と推論のギャップを埋める
- Authors: Han Liu, Bingning Wang, Ting Yao, Haijin Liang, Jianjin Xu and Xiaolin
Hu
- Abstract要約: 大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
BCLMは制御可能な言語生成において効率的であることが示されている。
本稿では,ミスマッチ問題を少ない計算コストで軽減する制御可能な言語生成のための"Gemini Discriminator"を提案する。
- 参考スコア(独自算出の注目度): 58.990214815032495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models have achieved great success on
natural language generation tasks. However, it is difficult to control the
pre-trained language models to generate sentences with the desired attribute
such as topic and sentiment, etc. Recently, Bayesian Controllable Language
Models (BCLMs) have been shown to be efficient in controllable language
generation. Rather than fine-tuning the parameters of pre-trained language
models, BCLMs use external discriminators to guide the generation of
pre-trained language models. However, the mismatch between training and
inference of BCLMs limits the performance of the models. To address the
problem, in this work we propose a "Gemini Discriminator" for controllable
language generation which alleviates the mismatch problem with a small
computational cost. We tested our method on two controllable language
generation tasks: sentiment control and topic control. On both tasks, our
method reached achieved new state-of-the-art results in automatic and human
evaluations.
- Abstract(参考訳): 大規模事前学習型言語モデルは、自然言語生成タスクにおいて大きな成功を収めている。
しかし,トピックや感情など,所望の属性を持つ文を生成するために,事前学習された言語モデルを制御することは困難である。
近年,bayesian controllable language model (bclms) は,制御可能な言語生成において効率的であることが示されている。
事前訓練された言語モデルのパラメータを微調整する代わりに、BCLMは外部識別器を使用して事前訓練された言語モデルの生成を誘導する。
しかし、BCLMのトレーニングと推論のミスマッチは、モデルの性能を制限している。
この問題に対処するため,本研究では,ミスマッチ問題を少ない計算コストで軽減する,制御可能な言語生成のための「gemini discriminator」を提案する。
本手法は感情制御と話題制御という2つの制御可能な言語生成タスクでテストした。
両課題において,本手法は自動評価と人的評価の両面で新しい最先端の成果を得た。
関連論文リスト
- Assessing Code Generation with Intermediate Languages [6.999311675957218]
本研究では、様々なプログラミング言語、自然言語ソリューション、擬似コードを含む中間言語の利用について検討する。
以上の結果から, 中間言語は一般に, 最先端性能を達成できていない大規模モデルにおいて, 高い有効性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-07-07T15:35:41Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Why Does Zero-Shot Cross-Lingual Generation Fail? An Explanation and a
Solution [0.9085116579988537]
細調整プロセスは言語不変表現を学習し、分類タスクには有益であるが、生成タスクには有害であることを示す。
3つの意味的に多様な生成タスクの実験により,提案手法は事故翻訳問題を68%削減し,ROUGE-Lスコアを平均1.5改善した。
論文 参考訳(メタデータ) (2023-05-27T02:04:19Z) - Controlled Text Generation with Natural Language Instructions [74.88938055638636]
InstructCTGは、異なる制約を含む制御されたテキスト生成フレームワークである。
まず、既製のNLPツールと単純な動詞の組み合わせにより、自然文の基本的制約を抽出する。
制約の自然言語記述といくつかの実演を予測することにより、様々な種類の制約を組み込むために、事前訓練された言語モデルを微調整する。
論文 参考訳(メタデータ) (2023-04-27T15:56:34Z) - Interpretable Unified Language Checking [42.816372695828306]
本稿では,人間と機械生成言語の両方に対して,解釈可能で統一された言語チェック(UniLC)手法を提案する。
ファクトチェック, ステレオタイプ検出, ヘイトスピーチ検出タスクの組み合わせにより, LLM は高い性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-07T16:47:49Z) - GanLM: Encoder-Decoder Pre-training with an Auxiliary Discriminator [114.8954615026781]
本稿では,補助判別器を導入して,エンコーダ・デコーダ事前学習のためのGANスタイルのモデルを提案する。
GanLMは2つのトレーニング済みの目標 – トークン検出の置き換えとトークン記述の置き換え – でトレーニングされている。
言語生成ベンチマークの実験では、強力な言語理解能力を持つ GanLM が、様々な強力な事前学習言語モデルより優れていることが示されている。
論文 参考訳(メタデータ) (2022-12-20T12:51:11Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。