論文の概要: Auto-Learning: An Adversarial Process of Two Pre-trained Models for
Natural Language Generation
- arxiv url: http://arxiv.org/abs/2302.03896v2
- Date: Thu, 9 Feb 2023 09:44:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-10 12:01:19.766052
- Title: Auto-Learning: An Adversarial Process of Two Pre-trained Models for
Natural Language Generation
- Title(参考訳): 自動学習:自然言語生成のための2つの事前学習モデルの逆処理
- Authors: Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yuelin Lu
- Abstract要約: 新しい逆プロセス学習法はAuto-Learningと呼ばれ、任意の自然言語生成モデルの性能を向上させることができる。
オートラーニングは8つのモデルで10の自然言語処理タスクを安定的に改善することができる。
- 参考スコア(独自算出の注目度): 5.23028846519425
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained models have been used in many fields in recent years, ranging
from natural language understanding to computer vision and natural language
generation. Nowadays, the performance of these natural language generation
models is overly dependent on the model's scale and the dataset's size. While
the larger language model is excellent in some respects, it cannot learn
up-to-date knowledge and is relatively difficult to relearn. In this paper, a
new adversarial process learning method is called Auto-Learning, which can
improve the performance of any natural language generation model without the
help of additional datasets. Auto-Learning includes two models: $G$ is a text
generation model, and $D$ can test whether the data generated by G is
legitimate. Firstly, the fine-tuned $D$ model is used as the brain's knowledge
base before the process. Then the text generated by the $G$ model is used as
the input of $D$ to determine whether the text is legitimate. Finally, $G$ is
fine-tuned according to the output of $D$. This adversarial process is like a
self-escalation of the brain through some a priori knowledge. When this
adversarial system wants to learn something new, simply fine-tune the $D$
model. Our approach applies to Autoregressive Language Modeling for all
Transformer classes. Auto-Learning enables 8 models to achieve stable
improvement in 10 natural language processing tasks without any change in
structure.
- Abstract(参考訳): 事前訓練されたモデルは、自然言語理解からコンピュータビジョン、自然言語生成まで、近年多くの分野で使われている。
現在、これらの自然言語生成モデルの性能は、モデルのスケールとデータセットのサイズに大きく依存しています。
より大きな言語モデルはいくつかの点で優れているが、最新の知識を学ぶことはできず、再学習が比較的困難である。
本稿では,新たな逆プロセス学習手法であるAuto-Learningを用いて,追加データセットを使わずに任意の自然言語生成モデルの性能を向上させる。
自動学習には2つのモデルがある:$G$はテキスト生成モデルであり、$D$はGによって生成されたデータが合法かどうかをテストすることができる。
まず、細調整されたD$モデルは、プロセスの前に脳の知識基盤として使用される。
次に$G$モデルによって生成されたテキストを$D$の入力として使用して、テキストが正当かどうかを判断する。
最後に、$D$の出力に応じて$G$を微調整する。
この敵対的プロセスは、事前知識を通じて脳の自己エスカレーションのようなものです。
この敵対的なシステムが何か新しいことを学びたい場合、単に$D$モデルに精通するだけです。
我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。
オートラーニングにより、構造の変化なしに8つのモデルが10の自然言語処理タスクで安定した改善を達成できる。
関連論文リスト
- Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image
Generation [86.65991476980648]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - Textually Pretrained Speech Language Models [107.10344535390956]
本稿では、事前訓練されたテキスト言語モデルからウォームスタートを用いたSpeechLMの訓練方法であるTWISTを提案する。
我々は、TWISTがボード全体のコールドスタートSpeechLMより優れる自動評価と人的評価の両方を用いて示す。
論文 参考訳(メタデータ) (2023-05-22T13:12:16Z) - JaCoText: A Pretrained Model for Java Code-Text Generation [0.0]
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
論文 参考訳(メタデータ) (2023-03-22T19:01:25Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - What do Large Language Models Learn beyond Language? [10.9650651784511]
事前学習モデルは、非事前学習ニューラルモデルに匹敵する性能を著しく上回っていることがわかった。
実験により、多言語テキストやコンピュータコードで事前学習しても、事前学習の効果が持続することが明らかとなった。
その結果,言語モデルの事前学習能力と帰納学習能力との間には,未解明の深い関係があることが示唆された。
論文 参考訳(メタデータ) (2022-10-21T23:43:13Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Breaking Writer's Block: Low-cost Fine-tuning of Natural Language
Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。
提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文 参考訳(メタデータ) (2020-12-19T11:19:11Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。