論文の概要: Reverse Training to Nurse the Reversal Curse
- arxiv url: http://arxiv.org/abs/2403.13799v3
- Date: Tue, 7 May 2024 20:35:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-09 16:24:12.923510
- Title: Reverse Training to Nurse the Reversal Curse
- Title(参考訳): リバースカース教育のためのリバーストレーニング
- Authors: Olga Golovneva, Zeyuan Allen-Zhu, Jason Weston, Sainbayar Sukhbaatar,
- Abstract要約: 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。
この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。
我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。
- 参考スコア(独自算出の注目度): 42.8324011011372
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have a surprising failure: when trained on "A has a feature B", they do not generalize to "B is a feature of A", which is termed the Reversal Curse. Even when training with trillions of tokens this issue still appears due to Zipf's law - hence even if we train on the entire internet. This work proposes an alternative training scheme, called reverse training, whereby all words are used twice, doubling the amount of available tokens. The LLM is trained in both forward and reverse directions by reversing the training strings while preserving (i.e., not reversing) chosen substrings, such as entities. We show that data-matched reverse-trained models provide superior performance to standard models on standard tasks, and compute-matched reverse-trained models provide far superior performance on reversal tasks, helping resolve the reversal curse issue.
- Abstract(参考訳): 大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。
何十兆ものトークンでトレーニングしても、Zipfの法則によって、この問題は依然として現れます。
この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。
LLMは、例えばエンティティのような選択されたサブストリングを保存しながら、トレーニング文字列を反転させることで、前方方向と逆方向の両方で訓練される。
我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。
関連論文リスト
- Reverse Modeling in Large Language Models [39.18082267850437]
人間は前もって読み書きに慣れている。
本稿では,自己回帰型大規模言語モデル (LLM) が逆モデリングに苦しむかを検討する。
論文 参考訳(メタデータ) (2024-10-13T12:24:03Z) - Patch-Level Training for Large Language Models [69.67438563485887]
本稿では,Large Language Models (LLM) に対するパッチレベルのトレーニングを紹介する。
パッチレベルのトレーニングでは、言語モデルの短いパッチシーケンスをフィードし、次のパッチを予測するようにトレーニングします。
これに続いて、モデルは推論モードに合わせて、残りのトレーニングデータに対するトークンレベルのトレーニングを継続する。
論文 参考訳(メタデータ) (2024-07-17T15:48:39Z) - Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs [68.553807705044]
金魚の喪失と呼ばれる次の訓練目標に微妙な修正を加える。
トレーニング中、ランダムにサンプリングされたトークンのサブセットは損失計算から除外される。
これらのドロップトークンはモデルによって記憶されないため、トレーニングセットから完全なトークンの連鎖を冗長に再現することができない。
論文 参考訳(メタデータ) (2024-06-14T17:44:22Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Mitigating the Learning Bias towards Repetition by Self-Contrastive
Training for Open-Ended Generation [92.42032403795879]
GPT2のような事前訓練された言語モデル(LM)は、繰り返しテキストを生成する傾向にあることを示す。
トークンレベルの反復確率の過大評価は学習バイアスに起因している。
LMは文レベルの繰り返しループの原因となる非繰り返しトークンよりも長い範囲依存を用いて繰り返しトークンを予測する。
論文 参考訳(メタデータ) (2023-07-04T07:53:55Z) - The Wisdom of Hindsight Makes Language Models Better Instruction
Followers [84.9120606803906]
強化学習は、人間のフィードバックによる指示に合うように、大きな言語モデルを微調整することに成功している。
そこで本稿では,本論文で提案するアプローチとして,原文を緩和することでフィードバックを指導に変換する手法と,教師付き手法によるアライメント向上のためのモデルをトレーニングする手法を提案する。
言語モデルと命令を整合させる新しいアルゴリズムであるHIR(Hindsight Instruction Relabeling)を提案する。
論文 参考訳(メタデータ) (2023-02-10T12:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。