論文の概要: Learning by Distilling Context
- arxiv url: http://arxiv.org/abs/2209.15189v1
- Date: Fri, 30 Sep 2022 02:30:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-03 14:12:30.986721
- Title: Learning by Distilling Context
- Title(参考訳): 文脈の蒸留による学習
- Authors: Charlie Snell, Dan Klein, Ruiqi Zhong
- Abstract要約: 文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。
文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。
- 参考スコア(独自算出の注目度): 38.848071335962935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models significantly benefit from context tokens, such as prompts or
scratchpads. They perform better when prompted with informative instructions,
and they acquire new reasoning capabilities by generating a scratch-pad before
predicting the final answers. However, they do not \textit{internalize} these
performance gains, which disappear when the context tokens are gone. Our work
proposes to apply context distillation so that a language model can improve
itself by internalizing these gains. Concretely, given a synthetic unlabeled
input for the target task, we condition the model on ``[instructions] +
[task-input]'' to predict ``[scratch-pad] + [final answer]''; then we fine-tune
the same model to predict its own ``[final answer]'' conditioned on the
``[task-input]'', without seeing the ``[instructions]'' or using the
``[scratch-pad]''.
We show that context distillation is a general method to train language
models, and it can effectively internalize 3 types of training signals. First,
it can internalize abstract task instructions and explanations, so we can
iteratively update the model parameters with new instructions and overwrite old
ones. Second, it can internalize step-by-step reasoning for complex tasks
(e.g., 8-digit addition), and such a newly acquired capability proves to be
useful for other downstream tasks. Finally, it can internalize concrete
training examples, and it outperforms directly learning with gradient descent
by 9\% on the SPIDER Text-to-SQL dataset; furthermore, combining context
distillation operations can internalize more training examples than the context
window size allows.
- Abstract(参考訳): 言語モデルは、プロンプトやスクラッチパッドのようなコンテキストトークンから著しく恩恵を受ける。
そして、最終的な答えを予測する前に、スクラッチパッドを生成することによって、新たな推論能力を得る。
しかし、これらのパフォーマンスゲインはtextit{internalize}ではなく、コンテキストトークンがなくなったときに消える。
本研究は,これらの利得を内在化することによって,言語モデルが自己改善できるように,文脈蒸留を適用することを提案する。
具体的には、ターゲットタスクに対する合成されていない入力が与えられた場合、 ``[instructions] + [task-input]'' でモデルに ``[scratch-pad] + [final answer]'' を予測させ、その後、同じモデルに ``[task-input]' で条件付き ``[task-input]'' を予測させ、 ``[instructions]' を見たり、 ``[scratch-pad]' を使用せずに、同じモデルを微調整する。
文脈蒸留は言語モデルを学習するための一般的な手法であり、3種類の訓練信号を効果的に内部化できることを示す。
まず、抽象的なタスク命令と説明を内部化するので、モデルのパラメータを新しい命令で反復的に更新し、古い命令を上書きできます。
第二に、複雑なタスクのステップ・バイ・ステップの推論(例えば8桁の追加)を内部化し、新たに取得した能力は他の下流タスクに有用であることが証明される。
最後に、具体的なトレーニング例を内部化でき、SPIDER Text-to-SQLデータセットで勾配降下率9\%で直接学習し、さらにコンテキスト蒸留操作を組み合わせることで、コンテキストウィンドウサイズよりもトレーニング例を内部化することができる。
関連論文リスト
- Semformer: Transformer Language Models with Semantic Planning [18.750863564495006]
次世代の予測は、現在のニューラルネットワークモデルの主要なコンポーネントである。
本稿では,応答のセマンティックプランニングを明示的にモデル化したトランスフォーマー言語モデルのトレーニング手法であるSemformerを紹介する。
論文 参考訳(メタデータ) (2024-09-17T12:54:34Z) - Instruction Position Matters in Sequence Generation with Large Language
Models [67.87516654892343]
大規模言語モデル(LLM)は、翻訳や要約といった条件付きシーケンス生成タスクを実行することができる。
入力文の後にタスク命令の位置をシフトさせることにより,LLMの指示追従能力を向上させることを提案する。
論文 参考訳(メタデータ) (2023-08-23T12:36:57Z) - EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - In-Context Probing: Toward Building Robust Classifiers via Probing Large
Language Models [5.5089506884366735]
本稿では, In-Context Probing (ICP) という代替手法を提案する。
インコンテキスト学習と同様に、入力の表現を命令で文脈化するが、出力予測を復号する代わりに、ラベルを予測するために文脈化表現を探索する。
我々はICPがファインタニングよりも優れていることを示し、より小さなモデルの上に分類器を構築するのに特に有用であることを示した。
論文 参考訳(メタデータ) (2023-05-23T15:43:04Z) - Don't Prompt, Search! Mining-based Zero-Shot Learning with Language
Models [37.8952605358518]
BERTのようなマスキング言語モデルはゼロショット方式でテキスト分類を行うことができる。
ゼロショット学習のための代替的なマイニング手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T15:52:30Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Leveraging Natural Supervision for Language Representation Learning and
Generation [8.083109555490475]
自然発生型監視を用いて,ニューラルネットワークのトレーニングと評価を改善するための3行の作業について述べる。
まず,NLPタスクに対する事前学習言語モデルの性能向上を支援するために,自己指導型学習損失について検討する。
文表現における意味論と構文のアンタングル化にパラフレーズペアを用いるフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-21T17:26:03Z) - Syntax-Enhanced Pre-trained Model [49.1659635460369]
BERTやRoBERTaなどの学習済みモデルを強化するために、テキストの構文構造を活用するという問題を研究する。
既存の手法では、事前学習段階または微調整段階のいずれかでテキストの構文を利用しており、両者の区別に苦しむ。
事前学習と微調整の両方の段階でテキストのシンタックスを利用するモデルを提示する。
論文 参考訳(メタデータ) (2020-12-28T06:48:04Z) - Exemplar-Controllable Paraphrasing and Translation using Bitext [57.92051459102902]
私たちは、バイリンガルテキスト(bitext)からのみ学ぶことができるように、以前の作業からモデルを適用する。
提案した1つのモデルでは、両言語で制御されたパラフレーズ生成と、両言語で制御された機械翻訳の4つのタスクを実行することができる。
論文 参考訳(メタデータ) (2020-10-12T17:02:50Z) - Few-Shot Learning for Opinion Summarization [117.70510762845338]
オピニオン要約は、複数の文書で表現された主観的な情報を反映したテキストの自動生成である。
本研究では,要約テキストの生成をブートストラップするのには,少数の要約でも十分であることを示す。
提案手法は, 従来の抽出法および抽象法を, 自動的, 人的評価において大きく上回っている。
論文 参考訳(メタデータ) (2020-04-30T15:37:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。