論文の概要: The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
- arxiv url: http://arxiv.org/abs/2309.12288v3
- Date: Thu, 4 Apr 2024 21:25:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-08 20:40:00.663500
- Title: The Reversal Curse: LLMs trained on "A is B" fail to learn "B is A"
- Title(参考訳): The Reversal Curse: "A is B" でトレーニングされた LLM は "B is A" を学ぶことができません。
- Authors: Lukas Berglund, Meg Tong, Max Kaufmann, Mikita Balesni, Asa Cooper Stickland, Tomasz Korbak, Owain Evans,
- Abstract要約: 自己回帰型大言語モデル(LLM)における一般化の驚くべき失敗を示す。
例えば、もしモデルが"Valentina Tereshkovaが最初に宇宙に旅行した女性"で訓練されたとしても、"誰が最初に宇宙に旅行した女性なのか?"という疑問に自動的に答えることはできません。
GPT-3とLlama-1を架空の文で微調整することで、逆曲線の証拠を提供する。
- 参考スコア(独自算出の注目度): 5.615130420318795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We expose a surprising failure of generalization in auto-regressive large language models (LLMs). If a model is trained on a sentence of the form "A is B", it will not automatically generalize to the reverse direction "B is A". This is the Reversal Curse. For instance, if a model is trained on "Valentina Tereshkova was the first woman to travel to space", it will not automatically be able to answer the question, "Who was the first woman to travel to space?". Moreover, the likelihood of the correct answer ("Valentina Tershkova") will not be higher than for a random name. Thus, models do not generalize a prevalent pattern in their training set: if "A is B" occurs, "B is A" is more likely to occur. It is worth noting, however, that if "A is B" appears in-context, models can deduce the reverse relationship. We provide evidence for the Reversal Curse by finetuning GPT-3 and Llama-1 on fictitious statements such as "Uriah Hawthorne is the composer of Abyssal Melodies" and showing that they fail to correctly answer "Who composed Abyssal Melodies?". The Reversal Curse is robust across model sizes and model families and is not alleviated by data augmentation. We also evaluate ChatGPT (GPT-3.5 and GPT-4) on questions about real-world celebrities, such as "Who is Tom Cruise's mother? [A: Mary Lee Pfeiffer]" and the reverse "Who is Mary Lee Pfeiffer's son?". GPT-4 correctly answers questions like the former 79% of the time, compared to 33% for the latter. Code available at: https://github.com/lukasberglund/reversal_curse.
- Abstract(参考訳): 自動回帰型大言語モデル(LLM)における一般化の驚くべき失敗を明らかにする。
モデルが "A is B" という形式の文で訓練された場合、それは自動的に "B is A" に一般化されない。
これが逆転曲線である。
例えば、もしモデルが「Valentina Tereshkovaが最初に宇宙に旅行した女性」で訓練されたとしても、自動的には「誰が最初に宇宙に旅行した女性だったのか」という質問に答えることはできない。
さらに、正解(Valentina Tershkova)の確率は、ランダムな名前よりも高くない。
したがって、モデルがトレーニングセットの一般的なパターンを一般化しない: "A is B" が発生した場合、"B is A" はより起こりやすい。
しかし、「A is B」が文脈内で現れると、モデルは逆の関係を推論する。
我々は、GPT-3とLlama-1を「Uriah Hawthorne is the composer of Abyssal Melodies」のような架空の文で微調整することで、逆行曲線の証拠を提供し、彼らは「誰がAbyssal Melodiesを作曲したのか?
Reversal Curseはモデルのサイズやモデルファミリに対して堅牢であり、データ拡張によって緩和されない。
また、ChatGPT (GPT-3.5 と GPT-4) を「トム・クルーズの母親は? [A:Mary Lee Pfeiffer]」や「メアリー・リー・プファイファーの息子は?」といった現実世界の有名人に関する質問に対して評価している。
GPT-4は、前の79%の時間のように正しく答えるが、後者は33%である。
コードは、https://github.com/lukasberglund/reversal_curse.comで公開されている。
関連論文リスト
- PARAMANU-GANITA: Language Model with Mathematical Capabilities [3.9018931027384056]
Paramanu-Ganita(パラマヌ・ガニータ)は、2億8800万のパラメーター小説『Auto Regressive』(AR)デコーダに基づく数学の言語モデルである。
このモデルは, 計算した混合数学的コーパス上で, 4096 の文脈サイズでゼロから事前学習される。
我々は,数値計算とGSM8kの2つの数学ベンチマークを用いて,モデルの評価を行った。
論文 参考訳(メタデータ) (2024-04-22T17:55:56Z) - Reverse Training to Nurse the Reversal Curse [42.8324011011372]
大型言語モデル (LLM) には驚くべき失敗がある: "A has a feature B" で訓練された場合、それらは "B is a feature of A" に一般化されるのではなく、"Reversal Curse" と呼ばれる。
この研究は、すべての単語を2回使用し、利用可能なトークンの量を2倍にする、リバーストレーニングと呼ばれる代替のトレーニングスキームを提案する。
我々は,データマッチング逆トレーニングモデルが標準タスクの標準モデルよりも優れた性能を示し,計算マッチング逆トレーニングモデルは逆タスクにおいてはるかに優れた性能を示し,逆の呪いの解決に役立てることを示した。
論文 参考訳(メタデータ) (2024-03-20T17:55:35Z) - Mitigating Reversal Curse in Large Language Models via Semantic-aware Permutation Training [57.771940716189114]
我々は、大きな言語モデル(LLM)が「逆の呪い」に苦しむことを示す。
逆の呪いの根本原因は、訓練と推論の段階で異なる単語順にある。
この問題に対処するために,SPT(Semantic-Aware Permutation Training)を提案する。
論文 参考訳(メタデータ) (2024-03-01T18:55:20Z) - Are We Falling in a Middle-Intelligence Trap? An Analysis and Mitigation
of the Reversal Curse [73.65112477688353]
近年の研究では「逆の呪い」として知られる大きな言語モデルにおける現象が強調されている。
我々は、逆の呪いは特定のモデルの訓練目的の結果であると主張している。
本稿では、逆の呪いを軽減するために、新しい訓練手法BI Casual Language Modeling Optimization (BICO)を提案する。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - MQuAKE: Assessing Knowledge Editing in Language Models via Multi-Hop
Questions [80.69639629733484]
編集されたモデルが正しい解答を行うかどうかを評価するマルチホップ質問を含むベンチマークMQuAKEを提案する。
本稿では,メモリベースのアプローチであるMeLLoを提案する。これは,編集された事実に整合した回答を生成するために,言語モデルを反復的に促しながら,すべての編集された事実を外部に保存する。
論文 参考訳(メタデータ) (2023-05-24T06:48:41Z) - TASA: Deceiving Question Answering Models by Twin Answer Sentences
Attack [93.50174324435321]
本稿では,質問応答(QA)モデルに対する敵対的攻撃手法であるTASA(Twin Answer Sentences Attack)を提案する。
TASAは、金の回答を維持しながら、流動的で文法的な逆境を生み出す。
論文 参考訳(メタデータ) (2022-10-27T07:16:30Z) - TruthfulQA: Measuring How Models Mimic Human Falsehoods [2.7143159361691227]
本稿では,質問に対する回答を生成する上で,言語モデルが真であるかどうかを評価するためのベンチマークを提案する。
このベンチマークは、健康、法律、金融、政治など38のカテゴリーにまたがる817の質問で構成されている。
最高のモデルが58%の質問に対して真実であるのに対して、人間のパフォーマンスは94%でした。
論文 参考訳(メタデータ) (2021-09-08T17:15:27Z) - AGKD-BML: Defense Against Adversarial Attack by Attention Guided
Knowledge Distillation and Bi-directional Metric Learning [61.8003954296545]
Atention Guided Knowledge Distillation and Bi-directional Metric Learning (AGKD-BML) による新しい対人訓練ベースモデルを提案する。
提案したAGKD-BMLモデルは,最先端のアプローチよりも一貫して優れている。
論文 参考訳(メタデータ) (2021-08-13T01:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。