Fugu-MT 論文翻訳(概要): Auto-Learning: An Adversarial Process of Two Pre-trained Models for Natural Language Generation

論文の概要: Auto-Learning: An Adversarial Process of Two Pre-trained Models for Natural Language Generation

arxiv url: http://arxiv.org/abs/2302.03896v2
Date: Thu, 9 Feb 2023 09:44:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-10 12:01:19.766052
Title: Auto-Learning: An Adversarial Process of Two Pre-trained Models for Natural Language Generation
Title（参考訳）: 自動学習:自然言語生成のための2つの事前学習モデルの逆処理
Authors: Zhengqing Yuan, Huiwen Xue, Chao Zhang, Yuelin Lu
Abstract要約: 新しい逆プロセス学習法はAuto-Learningと呼ばれ、任意の自然言語生成モデルの性能を向上させることができる。オートラーニングは8つのモデルで10の自然言語処理タスクを安定的に改善することができる。
参考スコア（独自算出の注目度）: 5.23028846519425
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pre-trained models have been used in many fields in recent years, ranging from natural language understanding to computer vision and natural language generation. Nowadays, the performance of these natural language generation models is overly dependent on the model's scale and the dataset's size. While the larger language model is excellent in some respects, it cannot learn up-to-date knowledge and is relatively difficult to relearn. In this paper, a new adversarial process learning method is called Auto-Learning, which can improve the performance of any natural language generation model without the help of additional datasets. Auto-Learning includes two models: $G$ is a text generation model, and $D$ can test whether the data generated by G is legitimate. Firstly, the fine-tuned $D$ model is used as the brain's knowledge base before the process. Then the text generated by the $G$ model is used as the input of $D$ to determine whether the text is legitimate. Finally, $G$ is fine-tuned according to the output of $D$. This adversarial process is like a self-escalation of the brain through some a priori knowledge. When this adversarial system wants to learn something new, simply fine-tune the $D$ model. Our approach applies to Autoregressive Language Modeling for all Transformer classes. Auto-Learning enables 8 models to achieve stable improvement in 10 natural language processing tasks without any change in structure.
Abstract（参考訳）: 事前訓練されたモデルは、自然言語理解からコンピュータビジョン、自然言語生成まで、近年多くの分野で使われている。現在、これらの自然言語生成モデルの性能は、モデルのスケールとデータセットのサイズに大きく依存しています。より大きな言語モデルはいくつかの点で優れているが、最新の知識を学ぶことはできず、再学習が比較的困難である。本稿では,新たな逆プロセス学習手法であるAuto-Learningを用いて,追加データセットを使わずに任意の自然言語生成モデルの性能を向上させる。自動学習には2つのモデルがある:$G$はテキスト生成モデルであり、$D$はGによって生成されたデータが合法かどうかをテストすることができる。まず、細調整されたD$モデルは、プロセスの前に脳の知識基盤として使用される。次に$G$モデルによって生成されたテキストを$D$の入力として使用して、テキストが正当かどうかを判断する。最後に、$D$の出力に応じて$G$を微調整する。この敵対的プロセスは、事前知識を通じて脳の自己エスカレーションのようなものです。この敵対的なシステムが何か新しいことを学びたい場合、単に$D$モデルに精通するだけです。我々のアプローチは、全てのトランスフォーマークラスの自己回帰言語モデリングに適用する。オートラーニングにより、構造の変化なしに8つのモデルが10の自然言語処理タスクで安定した改善を達成できる。

関連論文リスト

ModelGrow: Continual Text-to-Video Pre-training with Model Expansion and Language Understanding Enhancement [49.513401043490305]
本研究は,テキスト・ビデオ・モデルの連続的な事前学習について考察する。私たちはこのタスクを、モデルのキャパシティの向上とセマンティック理解の改善という、2つの重要な側面に分割します。意味理解のために,大規模言語モデルを高度なテキストエンコーダとして活用する手法を提案する。
論文参考訳（メタデータ） (2024-12-25T18:58:07Z)
EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models [36.576853882830896]
我々はEvolveDirectorを導入し、公開リソースを使用した高度なモデルに匹敵するテキスト・画像生成モデルをトレーニングする。このフレームワークは、公開APIを通じて高度なモデルと対話して、ベースモデルをトレーニングするためのテキストイメージデータペアを取得する。我々は,事前学習された大規模視覚言語モデル(VLM)を活用し,基礎モデルの進化を導く。
論文参考訳（メタデータ） (2024-10-09T17:52:28Z)
TLDR: Token-Level Detective Reward Model for Large Vision Language Models [57.41524422460438]
既存の報酬モデルは、任意のテキストに1つのバイナリフィードバックを割り当てることによって、人間のアノテーションを模倣するだけである。我々は、各テキストトークンにきめ細かいアノテーションを提供するために、$textbfT$oken-$textbfL$evel $textbfD$etective $textbfR$eward Modelを提案する。
論文参考訳（メタデータ） (2024-10-07T04:00:22Z)
Pre-trained Language Models Do Not Help Auto-regressive Text-to-Image Generation [82.5217996570387]
我々は,自動回帰テキスト・画像生成のための事前学習言語モデルを適用した。事前訓練された言語モデルは限られた助けを提供する。
論文参考訳（メタデータ） (2023-11-27T07:19:26Z)
Generate to Understand for Representation [3.5325087487696463]
GURは、言語モデリングと対照的な学習目標を単一のトレーニングステップで組み合わせた事前トレーニングフレームワークである。 GURはラベル付きトレーニングデータなしで印象的な結果を実現し、ゼロショット設定でリコールベンチマークでレシーバーとして、トレーニング済みのすべてのベースラインを上回ります。
論文参考訳（メタデータ） (2023-06-14T06:00:18Z)
JaCoText: A Pretrained Model for Java Code-Text Generation [0.0]
本稿では,トランスフォーマーニューラルネットワークに基づくモデルであるJaCoTextを紹介する。自然言語テキストからJavaソースコードを生成することを目的としている。 CONCODEデータセットの実験は、JaCoTextが新しい最先端の結果を達成することを示している。
論文参考訳（メタデータ） (2023-03-22T19:01:25Z)
Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。 KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文参考訳（メタデータ） (2022-10-28T23:18:43Z)
Robust Preference Learning for Storytelling via Contrastive Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文参考訳（メタデータ） (2022-10-14T13:21:33Z)
Breaking Writer's Block: Low-cost Fine-tuning of Natural Language Generation Models [62.997667081978825]
ライターのブロックを解くという問題に対して,自然言語生成モデルを微調整するシステムについて述べる。提案した微調整は, 少数のエポックとUSD150の総コストを伴っても, 優れた結果が得られる。
論文参考訳（メタデータ） (2020-12-19T11:19:11Z)
Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。言語モデルのための完全合成出力埋め込み層を提案する。我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文参考訳（メタデータ） (2020-09-24T07:21:14Z)
WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文参考訳（メタデータ） (2020-06-02T11:57:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。