論文の概要: Auto-Learning: An Adversarial Process of Two Pre-trained Models for
Natural Language Generation
- arxiv url: http://arxiv.org/abs/2302.03896v1
- Date: Wed, 8 Feb 2023 06:09:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-09 17:16:20.402533
- Title: Auto-Learning: An Adversarial Process of Two Pre-trained Models for
Natural Language Generation
- Title(参考訳): 自動学習:自然言語生成のための2つの事前学習モデルの逆処理
- Authors: Zhengqing Yuan, Yuelin Lu, Chao Zhang, Huiwen Xue
- Abstract要約: 本稿では,「オートラーニング」と呼ばれる新たな逆プロセス学習手法を提案する。
追加のデータセットを使わずに、自然言語生成モデルのパフォーマンスを向上させることができる。
結果は、文法的なテキスト生成やテキスト理解タスクのパフォーマンス向上など、既存の実験的なタスクで優れている。
- 参考スコア(独自算出の注目度): 5.23028846519425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have been used in many fields in recent years, ranging
from natural language understanding to computer vision and natural language
generation. However, the performance of these natural language generation
models is overly dependent on the scale of the model and the size of the
dataset. While the larger language model is excellent in some respects, it
cannot learn up-to-date knowledge and is relatively difficult to relearn. In
this paper, a new adversarial process learning method called Auto-Learning.
This can improve the performance of any natural language generation model
without the help of additional datasets. Auto-Learning includes two models: $G$
is a text generation model and $D$ can test whether the data generated by G is
legitimate. Firstly, the fine-tuned $D$ model is used as the brain's knowledge
base before the process. Then the text generated by the $G$ model is used as
the input of $D$ to determine whether the text is legitimate or not. Finally,
$G$ is fine-tuned according to the output of $D$. This adversarial process is
like a self-escalation of the brain through some a priori knowledge. When this
adversarial system wants to learn something new, simply fine-tune the $D$
model. Our approach applies to Autoregressive Language Modeling for all
Transformer classes. The results are good in existing experimental tasks,
including more grammatical text generation and better performance on some text
comprehension tasks.
- Abstract(参考訳): 事前訓練されたモデルは、自然言語理解からコンピュータビジョン、自然言語生成まで、近年多くの分野で使われている。
しかし、これらの自然言語生成モデルの性能は、モデルの大きさとデータセットのサイズに過度に依存している。
より大きな言語モデルはいくつかの点で優れているが、最新の知識を学ぶことはできず、再学習が比較的困難である。
本稿では,自動学習と呼ばれる新しい逆プロセス学習手法について述べる。
これにより、追加のデータセットを使わずに、自然言語生成モデルのパフォーマンスを向上させることができる。
自動学習には2つのモデルがある。 $g$はテキスト生成モデルであり、$d$はgによって生成されたデータが正当かどうかをテストする。
まず、細調整されたD$モデルは、プロセスの前に脳の知識基盤として使用される。
次に$G$モデルによって生成されたテキストを$D$の入力として使用して、テキストが正当かどうかを判断する。
最後に、$D$の出力に応じて$G$を微調整する。
この敵対的プロセスは、事前知識を通じて脳の自己エスカレーションのようなものです。
この敵対的なシステムが何か新しいことを学びたい場合、単に$D$モデルに精通するだけです。
我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。
結果は、文法的なテキスト生成やテキスト理解タスクのパフォーマンス向上など、既存の実験的なタスクに適しています。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - JaCoText: A Pretrained Model for Java Code-Text Generation [0.0]
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
論文 参考訳(メタデータ) (2023-03-22T19:01:25Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Breaking Writer's Block: Low-cost Fine-tuning of Natural Language
Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。
提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文 参考訳(メタデータ) (2020-12-19T11:19:11Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。