論文の概要: EvoText: Enhancing Natural Language Generation Models via
Self-Escalation Learning for Up-to-Date Knowledge and Improved Performance
- arxiv url: http://arxiv.org/abs/2302.03896v3
- Date: Thu, 13 Apr 2023 07:29:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 17:04:39.962517
- Title: EvoText: Enhancing Natural Language Generation Models via
Self-Escalation Learning for Up-to-Date Knowledge and Improved Performance
- Title(参考訳): EvoText: 最新の知識とパフォーマンス向上のための自己エスカレーション学習による自然言語生成モデルの強化
- Authors: Zhengqing Yuan, Huiwen Xue, Chao Zhang and Yongming Liu
- Abstract要約: EvoTextは、追加のデータセットを必要とせずに、自然言語生成モデルのパフォーマンスを向上させる新しいトレーニング方法である。
モデルは、優先順位の知識の上に構築された自己エスカレーションプロセスを通じて、最新の知識を学習することができる。
EvoTextでは、8つのモデルが7つの自然言語処理タスクを安定的に改善した。
- 参考スコア(独自算出の注目度): 9.187462935211427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, pretrained models have been widely used in various fields,
including natural language understanding, computer vision, and natural language
generation. However, the performance of these language generation models is
highly dependent on the model size and the dataset size. While larger models
excel in some aspects, they cannot learn up-to-date knowledge and are
relatively difficult to relearn. In this paper, we introduce EvoText, a novel
training method that enhances the performance of any natural language
generation model without requiring additional datasets during the entire
training process (although a prior dataset is necessary for pretraining).
EvoText employs two models: $G$, a text generation model, and $D$, a model that
can determine whether the data generated by $G$ is legitimate. Initially, the
fine-tuned $D$ model serves as the knowledge base. The text generated by $G$ is
then input to $D$ to determine whether it is legitimate. Finally, $G$ is
fine-tuned based on $D$'s output. EvoText enables the model to learn up-to-date
knowledge through a self-escalation process that builds on a priori knowledge.
When EvoText needs to learn something new, it simply fine-tunes the $D$ model.
Our approach applies to autoregressive language modeling for all Transformer
classes. With EvoText, eight models achieved stable improvements in seven
natural language processing tasks without any changes to the model structure.
- Abstract(参考訳): 近年,自然言語理解,コンピュータビジョン,自然言語生成など様々な分野において,事前学習モデルが広く利用されている。
しかし,これらの言語生成モデルの性能は,モデルサイズとデータセットサイズに大きく依存している。
より大きなモデルはいくつかの面で優れているが、最新の知識を学べず、再学習が比較的難しい。
本稿では,学習過程全体において追加のデータセットを必要とすることなく,自然言語生成モデルの性能を向上させる新しいトレーニング手法であるEvoTextを紹介する(事前学習には事前データセットが必要であるが)。
evotextは、テキスト生成モデルである$g$と、$g$によって生成されたデータが正当であるかどうかを判断できる$d$という2つのモデルを採用している。
最初は、微調整された$d$モデルが知識ベースとして機能する。
すると$G$が生成したテキストが$D$に入力され、それが正当かどうかが決定される。
最後に$G$は$D$の出力に基づいて微調整される。
evotextは、事前知識に基づく自己エスカレーションプロセスを通じて、モデルが最新知識を学習することを可能にする。
EvoTextが何か新しいことを学ぶ必要があるとき、それは単に$D$モデルを微調整するだけだ。
我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。
EvoTextでは、モデル構造を変更することなく、7つの自然言語処理タスクを安定的に改善した。
関連論文リスト
- EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。
このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。
我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文 参考訳(メタデータ) (2024-10-09T17:52:28Z) - TLDR: Token-Level Detective Reward Model for Large Vision Language Models [57.41524422460438]
既存の報酬モデルは、任意のテキストに1つのバイナリフィードバックを割り当てることによって、人間のアノテーションを模倣するだけである。
我々は、各テキストトークンにきめ細かいアノテーションを提供するために、$textbfT$oken-$textbfL$evel $textbfD$etective $textbfR$eward Modelを提案する。
論文 参考訳(メタデータ) (2024-10-07T04:00:22Z) - Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。
事前訓練された言語モデルは限られた助けを提供する。
論文 参考訳(メタデータ) (2023-11-27T07:19:26Z) - Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。
GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2023-06-14T06:00:18Z) - JaCoText: A Pretrained Model for Java Code-Text Generation [0.0]
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。
自然言語テキストからJavaソースコードを生成することを目的としている。
CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
論文 参考訳(メタデータ) (2023-03-22T19:01:25Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Breaking Writer's Block: Low-cost Fine-tuning of Natural Language
Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。
提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文 参考訳(メタデータ) (2020-12-19T11:19:11Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。