論文の概要: The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
- arxiv url: http://arxiv.org/abs/2309.12288v3
- Date: Thu, 4 Apr 2024 21:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:40:00.663500
- Title: The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
- Title(参考訳): The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。
- Authors: Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans,
- Abstract要約: 自己回帰型大言語モデル(LLM)における一般化の驚くべき失敗を示す。
例えば、もしモデルが"Valentina Tereshkovaが最初に宇宙に旅行した女性"で訓練されたとしても、"誰が最初に宇宙に旅行した女性なのか?"という疑問に自動的に答えることはできません。
GPT-3とLlama-1を架空の文で微調整することで、逆曲線の証拠を提供する。
- 参考スコア(独自算出の注目度): 5.615130420318795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Valentina Tereshkova was the first woman to travel to space", it will not automatically be able to answer the question, "Who was the first woman to travel to space?". Moreover, the likelihood of the correct answer ("Valentina Tershkova") will not be higher than for a random name. Thus, models do not generalize a prevalent pattern in their training set: if "A is B" occurs, "B is A" is more likely to occur. It is worth noting, however, that if "A is B" appears in-context, models can deduce the reverse relationship. We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of Abyssal Melodies" and showing that they fail to correctly answer "Who composed Abyssal Melodies?". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. Code available at: https://github.com/lukasberglund/reversal_curse.
- Abstract(参考訳): 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。
モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。
これが逆転曲線である。
例えば、もしモデルが「Valentina Tereshkovaが最初に宇宙に旅行した女性」で訓練されたとしても、自動的には「誰が最初に宇宙に旅行した女性だったのか」という質問に答えることはできない。
さらに、正解(Valentina Tershkova)の確率は、ランダムな名前よりも高くない。
したがって、モデルがトレーニングセットの一般的なパターンを一般化しない: "A is B" が発生した場合、"B is A" はより起こりやすい。
しかし、「A is B」が文脈内で現れると、モデルは逆の関係を推論する。
我々は、GPT-3とLlama-1を「Uriah Hawthorne is the composer of Abyssal Melodies」のような架空の文で微調整することで、逆行曲線の証拠を提供し、彼らは「誰がAbyssal Melodiesを作曲したのか?
Reversal Curseはモデルのサイズやモデルファミリに対して堅牢であり、データ拡張によって緩和されない。
また、ChatGPT (GPT-3.5 と GPT-4) を「トム・クルーズの母親は? [A:Mary Lee Pfeiffer]」や「メアリー・リー・プファイファーの息子は?」といった現実世界の有名人に関する質問に対して評価している。
GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。
コードは、https://github.com/lukasberglund/reversal_curse.comで公開されている。
関連論文リスト
- Delving into the Reversal Curse: How Far Can Large Language Models Generalize? [40.64539467276017]
大きな言語モデル(LLM)は、一見自明なタスクに直面しているときに制限を示す。
主要な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練されたとき、この知識を一般化して「BはAである」と推測するのに苦労している。
論文 参考訳(メタデータ) (2024-10-24T14:55:09Z) - SuperCorrect: Supervising and Correcting Language Models with Error-Driven Insights [89.56181323849512]
より小規模な学生モデルの推論と反映の両方を教師モデルを用いて監督し,修正するフレームワークであるSuperCorrectを提案する。
第1段階では、教師モデルから階層的な高レベルかつ詳細な思考テンプレートを抽出し、よりきめ細かい推論思考を導き出す学生モデルを指導する。
第2段階では、学生モデルの自己補正能力を高めるために、クロスモデル協調直接選好最適化(DPO)を導入する。
論文 参考訳(メタデータ) (2024-10-11T17:25:52Z) - Reverse Training to Nurse the Reversal Curse [42.8324011011372]
大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。
この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。
我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。
論文 参考訳(メタデータ) (2024-03-20T17:55:35Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - Physics of Language Models: Part 3.2, Knowledge Manipulation [51.68385617116854]
本稿では,4つの基本的な知識操作タスクについて検討する。
言語モデルは知識検索に優れるが、最も単純な分類や比較タスクにも耐え難い。
また, GPT-4のような近代的な事前学習言語モデルにも適用できる。
論文 参考訳(メタデータ) (2023-09-25T17:50:41Z) - TruthfulQA: Measuring How Models Mimic Human Falsehoods [2.7143159361691227]
本稿では,質問に対する回答を生成する上で,言語モデルが真であるかどうかを評価するためのベンチマークを提案する。
このベンチマークは、健康、法律、金融、政治など38のカテゴリーにまたがる817の質問で構成されている。
最高のモデルが58%の質問に対して真実であるのに対して、人間のパフォーマンスは94%でした。
論文 参考訳(メタデータ) (2021-09-08T17:15:27Z) - AGKD-BML: Defense Against Adversarial Attack by Attention Guided
Knowledge Distillation and Bi-directional Metric Learning [61.8003954296545]
Atention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML) による新しい対人訓練ベースモデルを提案する。
提案したAGKD-BMLモデルは,最先端のアプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2021-08-13T01:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。