論文の概要: Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts
- arxiv url: http://arxiv.org/abs/2412.04614v1
- Date: Thu, 05 Dec 2024 21:00:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-09 15:57:33.797643
- Title: Extractive Structures Learned in Pretraining Enable Generalization on Finetuned Facts
- Title(参考訳): ファクトファクトの一般化を予知するための抽出構造
- Authors: Jiahai Feng, Stuart Russell, Jacob Steinhardt,
- Abstract要約: 事前訓練された言語モデル(LM)は、それらが微調整されている事実の含意を一般化することができる。
本稿では、この一般化を実現するために、LMのコンポーネントがどのように協調するかを記述するためのフレームワークとして、抽出構造を紹介する。
- 参考スコア(独自算出の注目度): 33.790893543774736
- License:
- Abstract: Pretrained language models (LMs) can generalize to implications of facts that they are finetuned on. For example, if finetuned on ``John Doe lives in Tokyo," LMs can correctly answer ``What language do the people in John Doe's city speak?'' with ``Japanese''. However, little is known about the mechanisms that enable this generalization or how they are learned during pretraining. We introduce extractive structures as a framework for describing how components in LMs (e.g., MLPs or attention heads) coordinate to enable this generalization. The structures consist of informative components that store training facts as weight changes, and upstream and downstream extractive components that query and process the stored information to produce the correct implication. We hypothesize that extractive structures are learned during pretraining when encountering implications of previously known facts. This yields two predictions: a data ordering effect where extractive structures can be learned only if facts precede their implications, and a weight grafting effect where extractive structures can be transferred to predict counterfactual implications. We empirically demonstrate these phenomena in the OLMo-7b, Llama 3-8b, Gemma 2-9b, and Qwen 2-7b models. Of independent interest, our results also indicate that fact learning can occur at both early and late layers, which lead to different forms of generalization.
- Abstract(参考訳): 事前訓練された言語モデル(LM)は、それらが微調整されている事実の含意を一般化することができる。
例えば、「ジョン・ドエが東京に住んでいる」と微調整された場合、LMは「ジョン・ドエの街ではどの言語が話されているのか」を「日本人」と正しく答えることができる。
しかし、この一般化を可能にするメカニズムや、事前訓練中にどのように学習されるかについては、ほとんど分かっていない。
この一般化を実現するために, LM(例えば, MLPやアテンションヘッド)の成分がどのように協調するかを記述するためのフレームワークとして, 抽出構造を導入する。
これらの構造は、トレーニング事実を重み変化として保存する情報的コンポーネントと、記憶されている情報をクエリして処理し、正しい含意を生成する上流および下流の抽出的コンポーネントから構成される。
既知事実の含意に遭遇した場合, 事前学習中に抽出構造が学習されるという仮説を立てる。
これは2つの予測結果である: 事実が含意に先行する場合にのみ、抽出構造が学習できるデータ順序付け効果と、抽出構造が反事実的含意を予測するために転送される重み付け効果である。
これらの現象を,OLMo-7b,Llama 3-8b,Gemma 2-9b,Qwen 2-7bモデルで実証した。
また,本研究の結果から, 早期層と後期層の両方で事実学習が実現し, 一般化の異なる形態がもたらされることが示唆された。
関連論文リスト
- Delving into the Reversal Curse: How Far Can Large Language Models Generalize? [40.64539467276017]
大きな言語モデル(LLM)は、一見自明なタスクに直面しているときに制限を示す。
主要な例として、最近議論された「逆の呪い」があり、これはモデルが「AはBである」という事実に基づいて訓練されたとき、この知識を一般化して「BはAである」と推測するのに苦労している。
論文 参考訳(メタデータ) (2024-10-24T14:55:09Z) - Surprise! Uniform Information Density Isn't the Whole Story: Predicting Surprisal Contours in Long-form Discourse [54.08750245737734]
話者は、階層的に構造化された談話モデル内の位置に基づいて、情報率を変調する。
階層的予測器は談話の情報輪郭の重要な予測器であり,深い階層的予測器は浅い予測器よりも予測力が高いことがわかった。
論文 参考訳(メタデータ) (2024-10-21T14:42:37Z) - Do Language Models Exhibit Human-like Structural Priming Effects? [3.4435563735186747]
本稿では,言語モデル予測に影響を与える言語要因について検討する。
我々は、構造的プライミングのパラダイムを利用し、最近の構造への露出は、同じ構造の処理を容易にする。
これらの効果は、人間のプライミングで知られている逆周波数効果によって説明でき、プライミング効果はプライミング効果を増大させる。
論文 参考訳(メタデータ) (2024-06-07T11:21:52Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Language Models as Knowledge Embeddings [26.384327693266837]
本稿では,言語モデルを用いて知識埋め込みを導出するLMKEを提案する。
我々は、記述に基づくKE学習を対照的な学習フレームワークで定式化し、トレーニングと評価の効率を向上させる。
論文 参考訳(メタデータ) (2022-06-25T10:39:12Z) - Investigating the Effect of Natural Language Explanations on
Out-of-Distribution Generalization in Few-shot NLI [11.44224857047629]
数ショットの学習設定を定式化し、自然言語の説明がOOD一般化に与える影響について検討する。
HANSデータセットのテンプレートを活用し、テンプレート毎にテンプレート化された自然言語説明を構築します。
生成した説明は、基礎的説明と競合するBLEUスコアを示すが、予測性能は向上しないことを示す。
論文 参考訳(メタデータ) (2021-10-12T18:00:02Z) - Are Training Resources Insufficient? Predict First Then Explain! [54.184609286094044]
我々は、予測理論(PtE)アーキテクチャはモデリングの観点からより効率的なアプローチであると主張している。
PtE構造は説明データが欠如している場合に最もデータ効率のよい手法であることを示す。
論文 参考訳(メタデータ) (2021-08-29T07:04:50Z) - Towards Interpretable Natural Language Understanding with Explanations
as Latent Variables [146.83882632854485]
そこで本研究では,人間に注釈付き説明文の小さなセットだけを必要とする自然言語理解の枠組みを構築した。
我々のフレームワークは、ニューラルネットワークの基本的な推論過程をモデル化する潜在変数として、自然言語の説明を扱う。
論文 参考訳(メタデータ) (2020-10-24T02:05:56Z) - Do Language Embeddings Capture Scales? [54.1633257459927]
事前学習された言語モデルは、オブジェクトのスカラーサイズに関するかなりの量の情報を取得することを示す。
我々は,事前学習と数理化における文脈情報を,その性能に影響を及ぼす2つの重要な要因として認識する。
論文 参考訳(メタデータ) (2020-10-11T21:11:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。