Fugu-MT 論文翻訳(概要): Delving into the Reversal Curse: How Far Can Large Language Models Generalize?

論文の概要: Delving into the Reversal Curse: How Far Can Large Language Models Generalize?

arxiv url: http://arxiv.org/abs/2410.18808v2
Date: Fri, 22 Nov 2024 09:00:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:39.961548
Title: Delving into the Reversal Curse: How Far Can Large Language Models Generalize?
Title（参考訳）: 逆行のカースに打ち込む: 大規模言語モデルはどこまで一般化できるか?
Authors: Zhengkai Lin, Zhihang Fu, Kai Liu, Liang Xie, Binbin Lin, Wenxiao Wang, Deng Cai, Yue Wu, Jieping Ye,
Abstract要約: 大きな言語モデル(LLM)は、一見自明なタスクに直面しているときに制限を示す。主要な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練されたとき、この知識を一般化して「BはAである」と推測するのに苦労している。
参考スコア（独自算出の注目度）: 40.64539467276017
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While large language models (LLMs) showcase unprecedented capabilities, they also exhibit certain inherent limitations when facing seemingly trivial tasks. A prime example is the recently debated "reversal curse", which surfaces when models, having been trained on the fact "A is B", struggle to generalize this knowledge to infer that "B is A". In this paper, we examine the manifestation of the reversal curse across various tasks and delve into both the generalization abilities and the problem-solving mechanisms of LLMs. This investigation leads to a series of significant insights: (1) LLMs are able to generalize to "B is A" when both A and B are presented in the context as in the case of a multiple-choice question. (2) This generalization ability is highly correlated to the structure of the fact "A is B" in the training documents. For example, this generalization only applies to biographies structured in "[Name] is [Description]" but not to "[Description] is [Name]". (3) We propose and verify the hypothesis that LLMs possess an inherent bias in fact recalling during knowledge application, which explains and underscores the importance of the document structure to successful learning. (4) The negative impact of this bias on the downstream performance of LLMs can hardly be mitigated through training alone. These findings offer a novel perspective on interpreting LLMs' generalization through their intrinsic mechanisms and provide insights for developing more effective learning methods. Our code and data are available at https://github.com/alibaba/thinking_bias.git.
Abstract（参考訳）: 大きな言語モデル(LLM)は前例のない機能を示す一方で、一見自明なタスクに直面しているときに固有の制限を示す。主な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練された時に表面化され、この知識を一般化して「BはAである」と推測するのに苦労している。本稿では,様々なタスクにまたがる逆の呪いの顕在化について検討し,LLMの一般化能力と問題解決機構について考察する。 1) LLM は、A と B の両方が、複数の質問の場合のように、文脈で表されるときに、B is A に一般化することができる。 2) この一般化能力は,訓練文書の「AはB」という事実の構造と強く相関している。例えば、この一般化は "[Name] is [Description]" で構造化された伝記にのみ適用されるが、 "[Description] is [Name]" には適用されない。 (3)本論文では,LLMが知識応用中に実際にリコールする際の固有のバイアスを持つという仮説を提案し,その仮説を検証し,文書構造の重要性を論証する。 (4) LLMの下流性能に対するこのバイアスの負の影響は, トレーニング単独で緩和することは困難であった。これらの知見は,本質的なメカニズムを通じてLLMの一般化を解釈する新たな視点を与え,より効果的な学習方法開発のための洞察を与える。私たちのコードとデータはhttps://github.com/alibaba/thinking_bias.git.comで公開されています。

関連論文リスト

Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文参考訳（メタデータ） (2025-03-19T15:21:48Z)
LLMs can implicitly learn from mistakes in-context [15.818061010632249]
本研究では,Large Language Models (LLMs) が,説明が得られない場合の数学的推論タスクの誤りから学習できるかどうかを検討する。驚くべきことに、LLMは文脈から有理性を取り除いた場合、平均して性能が向上する。このアプローチは、私たちの評価においてチェーン・オブ・シークレット・プロンプトよりも大幅に優れています。
論文参考訳（メタデータ） (2025-02-12T16:31:21Z)
What Do Language Models Learn in Context? The Structured Task Hypothesis [89.65045443150889]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)と呼ばれるデモで提示されたインコンテキストの例から新しいタスクを学習する一般的な仮説の一つは、タスク選択によるICLの説明である。もう一つの一般的な仮説は、ICLはメタ学習の一形態である、すなわち、モデルが事前学習時に学習アルゴリズムを学習し、それを実演に適用する、というものである。
論文参考訳（メタデータ） (2024-06-06T16:15:34Z)
LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文参考訳（メタデータ） (2024-04-09T13:08:56Z)
Learning to Generate Explainable Stock Predictions using Self-Reflective Large Language Models [54.21695754082441]
説明可能なストック予測を生成するために,LLM(Large Language Models)を教えるフレームワークを提案する。反射剤は自己推論によって過去の株価の動きを説明する方法を学ぶ一方、PPOトレーナーは最も可能性の高い説明を生成するためにモデルを訓練する。我々のフレームワークは従来のディープラーニング法とLLM法の両方を予測精度とマシューズ相関係数で上回ることができる。
論文参考訳（メタデータ） (2024-02-06T03:18:58Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
Enabling Large Language Models to Learn from Rules [99.16680531261987]
私たちは、人間がルールから学習することで、新しいタスクや知識を別の方法で学習できることにインスピレーションを受けています。まず, LLMの強い文脈内能力を用いて, テキスト規則から知識を抽出する規則蒸留法を提案する。実験の結果, LLMをルールから学習させることは, サンプルサイズと一般化能力の両方において, サンプルベース学習よりもはるかに効率的であることがわかった。
論文参考訳（メタデータ） (2023-11-15T11:42:41Z)
Are Large Language Models Temporally Grounded? [38.481606493496514]
文章を記述したLarge Language Model (LLM) を提供する。イベントの構造と持続時間に関する常識的な知識に関して、それらを調査する。これらの能力を反映した3つの課題に対して,最先端のLCMを評価した。
論文参考訳（メタデータ） (2023-11-14T18:57:15Z)
Say What You Mean! Large Language Models Speak Too Positively about Negative Commonsense Knowledge [22.543345304998258]
大規模言語モデル(LLM)は、肯定的な知識を保存し活用する能力について広く研究されている。否定的な知識、例えば「イオンは海に生息しない」は、世界でも広く知られているが、テキストで明確に言及されることはめったにない。本研究は,LLMの負のコモンセンス知識に対する能力について検討する。
論文参考訳（メタデータ） (2023-05-10T08:35:50Z)
Event knowledge in large language models: the gap between the impossible and the unlikely [46.540380831486125]
我々は,事前学習された大規模言語モデル (LLM) がイベント知識を持つことを示す。彼らはほぼ常に、不可能な事象に対して高い確率を割り当てる。しかし、おそらくは起こりそうもない出来事に対して、一貫性のない選好を示す。
論文参考訳（メタデータ） (2022-12-02T23:43:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。