論文の概要: Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games
- arxiv url: http://arxiv.org/abs/2304.07258v2
- Date: Wed, 26 Apr 2023 10:35:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-27 17:11:55.449048
- Title: Learn What Is Possible, Then Choose What Is Best: Disentangling
One-To-Many Relations in Language Through Text-based Games
- Title(参考訳): 何が可能かを学び、何が最善かを選ぶ - テキストベースのゲームを通じて言語における一対一の関係を分離する
- Authors: Benjamin Towle and Ke Zhou
- Abstract要約: 望ましい振る舞いをエミュレートできる言語モデルをトレーニングするアプローチを提案する。
テキストベースのゲームをテストベッドとして使用することで、PASAは個別の潜伏変数を用いて異なる動作範囲をキャプチャする。
その結果,従来の最先端モデルよりも49%の実証的改善が得られた。
- 参考スコア(独自算出の注目度): 3.615981646205045
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models pre-trained on large self-supervised corpora, followed by
task-specific fine-tuning has become the dominant paradigm in NLP. These
pre-training datasets often have a one-to-many structure--e.g. in dialogue
there are many valid responses for a given context. However, only some of these
responses will be desirable in our downstream task. This raises the question of
how we should train the model such that it can emulate the desirable
behaviours, but not the undesirable ones. Current approaches train in a
one-to-one setup--only a single target response is given for a single dialogue
context--leading to models only learning to predict the average response, while
ignoring the full range of possible responses. Using text-based games as a
testbed, our approach, PASA, uses discrete latent variables to capture the
range of different behaviours represented in our larger pre-training dataset.
We then use knowledge distillation to distil the posterior probability
distribution into a student model. This probability distribution is far richer
than learning from only the hard targets of the dataset, and thus allows the
student model to benefit from the richer range of actions the teacher model has
learned. Results show up to 49% empirical improvement over the previous
state-of-the-art model on the Jericho Walkthroughs dataset.
- Abstract(参考訳): 大規模自己教師型コーパスで事前訓練された言語モデルとタスク固有の微調整がNLPの主要なパラダイムとなっている。
これらの事前トレーニングデータセットは、しばしば1対多の構造を持ち、例えば対話では、与えられたコンテキストに対して有効な応答が多数存在する。
しかし、ダウンストリームタスクでは、これらのレスポンスの一部だけが望ましいでしょう。
これにより、望ましい振る舞いをエミュレートできるが、望ましくない振る舞いをエミュレートできるようにモデルをトレーニングする方法に関する疑問が持ち上がる。
現在のアプローチでは、1対1のセットアップでトレーニングされている - 単一の対話コンテキストに対して、単一のターゲット応答のみが与えられる。
テキストベースのゲームをテストベッドとして使用することで、当社のアプローチであるPASAは、個別の潜在変数を使用して、より大きな事前学習データセットで表現されるさまざまな動作範囲をキャプチャします。
次に, 知識蒸留法を用いて後確率分布を学生モデルに分解する。
この確率分布はデータセットのハードターゲットのみから学習するよりもはるかにリッチであるため、教師モデルが学んだよりリッチな行動の恩恵を受けることができる。
結果は、Jericho Walkthroughsデータセットの以前の最先端モデルよりも最大49%改善されている。
関連論文リスト
- ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Self-Distillation for Further Pre-training of Transformers [83.84227016847096]
我々は、さらなる事前学習段階の正則化として自己蒸留を提案する。
画像およびテキスト分類タスクのための様々なベンチマークデータセットにおける自己蒸留の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2022-09-30T02:25:12Z) - Self-augmented Data Selection for Few-shot Dialogue Generation [18.794770678708637]
我々は,MR-to-Text生成問題に対処するために,自己学習フレームワークを採用する。
我々は,我々の生成モデルが最も不確実なデータを選択するための新しいデータ選択戦略を提案する。
論文 参考訳(メタデータ) (2022-05-19T16:25:50Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Uncertainty Estimation for Language Reward Models [5.33024001730262]
言語モデルは、テキストコーパスの教師なしトレーニングからさまざまな能力を学ぶことができる。
人間がラベル付きデータを提供するよりも選択肢を選択する方が簡単であり、事前の作業はそのような選好比較から報酬モデルをトレーニングすることで最先端のパフォーマンスを達成した。
能動的学習とリスク-逆強化学習を用いてサンプル効率とロバスト性を向上させる不確実性推定によるこれらの問題に対処することを模索する。
論文 参考訳(メタデータ) (2022-03-14T20:13:21Z) - Learning Better Sentence Representation with Syntax Information [0.0]
構文情報と予め訓練された言語モデルを組み合わせるための新しいアプローチを提案する。
本モデルは91.2%の精度を達成し, 文完成作業では37.8%の精度でベースラインモデルを上回った。
論文 参考訳(メタデータ) (2021-01-09T12:15:08Z) - What do we expect from Multiple-choice QA Systems? [70.86513724662302]
複数のMultiple Choice Question Answering(MCQA)データセット上で,トップパフォーマンスモデルを検討する。
このようなモデルから得られる可能性のある一連の期待値に対して、モデル入力のゼロ情報摂動を用いて評価する。
論文 参考訳(メタデータ) (2020-11-20T21:27:10Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z) - Multi-Referenced Training for Dialogue Response Generation [36.24321477524634]
実世界の確率分布と単一参照データの確率分布とのギャップは,モデルが1対多の関係を効率的に学習することを妨げることを示す。
我々は、実世界の分布をよりよく近似するマルチ参照データを構築するために、強力な事前学習モデルから多様な擬似参照を生成する。
論文 参考訳(メタデータ) (2020-09-15T14:17:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。