論文の概要: Delving into the Reversal Curse: How Far Can Large Language Models Generalize?
- arxiv url: http://arxiv.org/abs/2410.18808v1
- Date: Thu, 24 Oct 2024 14:55:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:58.448779
- Title: Delving into the Reversal Curse: How Far Can Large Language Models Generalize?
- Title(参考訳): 逆行のカースに打ち込む: 大規模言語モデルはどこまで一般化できるか?
- Authors: Zhengkai Lin, Zhihang Fu, Kai Liu, Liang Xie, Binbin Lin, Wenxiao Wang, Deng Cai, Yue Wu, Jieping Ye,
- Abstract要約: 主要な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練されたとき、この知識を一般化して「BはAである」と推測するのに苦労している。
本稿では,様々なタスクにまたがる逆の呪いの顕在化について検討し,LLMの一般化能力と問題解決機構について考察する。
- 参考スコア(独自算出の注目度): 40.64539467276017
- License:
- Abstract: While large language models (LLMs) showcase unprecedented capabilities, they also exhibit certain inherent limitations when facing seemingly trivial tasks. A prime example is the recently debated "reversal curse", which surfaces when models, having been trained on the fact "A is B", struggle to generalize this knowledge to infer that "B is A". In this paper, we examine the manifestation of the reversal curse across various tasks and delve into both the generalization abilities and the problem-solving mechanisms of LLMs. This investigation leads to a series of significant insights: (1) LLMs are able to generalize to "B is A" when both A and B are presented in the context as in the case of a multiple-choice question. (2) This generalization ability is highly correlated to the structure of the fact "A is B" in the training documents. For example, this generalization only applies to biographies structured in "[Name] is [Description]" but not to "[Description] is [Name]". (3) We propose and verify the hypothesis that LLMs possess an inherent bias in fact recalling during knowledge application, which explains and underscores the importance of the document structure to successful learning. (4) The negative impact of this bias on the downstream performance of LLMs can hardly be mitigated through training alone. Based on these intriguing findings, our work not only presents a novel perspective for interpreting LLMs' generalization abilities from their intrinsic working mechanism but also provides new insights for the development of more effective learning methods for LLMs.
- Abstract(参考訳): 大きな言語モデル(LLM)は前例のない機能を示す一方で、一見自明なタスクに直面しているときに固有の制限を示す。
主な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練された時に表面化され、この知識を一般化して「BはAである」と推測するのに苦労している。
本稿では,様々なタスクにまたがる逆の呪いの顕在化について検討し,LLMの一般化能力と問題解決機構について考察する。
1) LLM は、A と B の両方が、複数の質問の場合のように、文脈で表されるときに、B is A に一般化することができる。
2) この一般化能力は,訓練文書の「AはB」という事実の構造と強く相関している。
例えば、この一般化は "[Name] is [Description]" で構造化された伝記にのみ適用されるが、 "[Description] is [Name]" には適用されない。
(3)本論文では,LLMが知識応用中に実際にリコールする際の固有のバイアスを持つという仮説を提案し,その仮説を検証し,文書構造の重要性を論証する。
(4) LLMの下流性能に対するこのバイアスの負の影響は, トレーニング単独で緩和することは困難であった。
これらの興味深い知見に基づいて,本研究は,LLMの一般化能力を本質的な作業機構から解釈する新たな視点を提示するだけでなく,LLMのより効果的な学習方法開発のための新たな洞察を提供する。
関連論文リスト
- What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する
一般的な仮説の一つは、タスク選択によるICLの説明である。
もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文 参考訳(メタデータ) (2024-06-06T16:15:34Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Meaningful Learning: Advancing Abstract Reasoning in Large Language Models via Generic Fact Guidance [38.49506722997423]
大規模言語モデル(LLM)は、様々な推論シナリオにまたがる優れたパフォーマンスと強力な説明可能性を開発した。
それにもかかわらず、一般的な事実に支えられた単純な質問をタスクすると、LCMは一貫性のある正確な答えを提供しないことが多い。
このことは、LSMが真に推論しているのか、単に記憶しているだけなのか、という活発な議論を引き起こしている。
論文 参考訳(メタデータ) (2024-03-14T04:06:13Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - Learning to Generate Explainable Stock Predictions using Self-Reflective
Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。
反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。
我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文 参考訳(メタデータ) (2024-02-06T03:18:58Z) - Enabling Large Language Models to Learn from Rules [99.16680531261987]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。
まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。
実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文 参考訳(メタデータ) (2023-11-15T11:42:41Z) - Event knowledge in large language models: the gap between the impossible
and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。
彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。
しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文 参考訳(メタデータ) (2022-12-02T23:43:18Z) - The Goldilocks of Pragmatic Understanding: Fine-Tuning Strategy Matters
for Implicature Resolution by LLMs [26.118193748582197]
我々は、広く使われている最先端モデルの4つのカテゴリを評価する。
2進推論を必要とする発話のみを評価するにもかかわらず、3つのカテゴリのモデルはランダムに近い性能を示す。
これらの結果は、特定の微調整戦略がモデルにおける実用的理解を誘導する上ではるかに優れていることを示唆している。
論文 参考訳(メタデータ) (2022-10-26T19:04:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。