論文の概要: Characterizing Mechanisms for Factual Recall in Language Models
- arxiv url: http://arxiv.org/abs/2310.15910v1
- Date: Tue, 24 Oct 2023 15:15:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 18:07:54.620445
- Title: Characterizing Mechanisms for Factual Recall in Language Models
- Title(参考訳): 言語モデルにおけるファクチュアルリコールのメカニズム
- Authors: Qinan Yu, Jack Merullo, Ellie Pavlick
- Abstract要約: 言語モデル(LM)は、しばしば、特定の文脈に現れる新しい情報と事前トレーニングで記憶した事実を統合する必要がある。
このような状況下でのLMの挙動の分布的および機械的決定要因について検討する。
私たちの研究は、モデルの振る舞いを特定のコンポーネントにローカライズできることを示す一連の証拠に寄与します。
- 参考スコア(独自算出の注目度): 18.93018274258127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) often must integrate facts they memorized in
pretraining with new information that appears in a given context. These two
sources can disagree, causing competition within the model, and it is unclear
how an LM will resolve the conflict. On a dataset that queries for knowledge of
world capitals, we investigate both distributional and mechanistic determinants
of LM behavior in such situations. Specifically, we measure the proportion of
the time an LM will use a counterfactual prefix (e.g., "The capital of Poland
is London") to overwrite what it learned in pretraining ("Warsaw"). On Pythia
and GPT2, the training frequency of both the query country ("Poland") and the
in-context city ("London") highly affect the models' likelihood of using the
counterfactual. We then use head attribution to identify individual attention
heads that either promote the memorized answer or the in-context answer in the
logits. By scaling up or down the value vector of these heads, we can control
the likelihood of using the in-context answer on new data. This method can
increase the rate of generating the in-context answer to 88\% of the time
simply by scaling a single head at runtime. Our work contributes to a body of
evidence showing that we can often localize model behaviors to specific
components and provides a proof of concept for how future methods might control
model behavior dynamically at runtime.
- Abstract(参考訳): 言語モデル(LM)は、しばしば、特定の文脈に現れる新しい情報と事前トレーニングで記憶した事実を統合する必要がある。
これら2つの情報源は意見が一致せず、モデル内での競合を引き起こし、LMがどのように紛争を解決するかは不明である。
本研究では,世界資本の知識を問うデータセットについて,そのような状況下でのLMの挙動の分布的および機械的決定要因について検討する。
具体的には、LMが対実的な接頭辞(例えば「ポーランドの首都はロンドン」)を使用する時間の割合を測定して、事前訓練で学んだことを上書きする("Warsaw")。
Pythia と GPT2 では、クエリ国 (Poland) と非コンテキスト都市 (London) の両方のトレーニング頻度が、モデルがカウンターファクトルを使用する可能性に大きく影響している。
次に、暗記された回答やロジット内の文脈内回答を促進する個別の注意頭を特定するために、頭部属性を使用する。
これらのヘッドの値ベクトルをスケールアップまたはダウンすることで、新しいデータにコンテキスト内応答を使用することの可能性を制御できる。
このメソッドは、実行時に1つのヘッドをスケールするだけで、コンテキスト内応答を88\%に増やすことができる。
私たちの研究は、モデル動作を特定のコンポーネントにローカライズできることを示す一連の証拠に貢献し、将来のメソッドが実行時にモデル動作を動的に制御する方法の実証を提供する。
関連論文リスト
- Controllable Context Sensitivity and the Knob Behind It [53.70327066130381]
予測を行う場合、言語モデルは、そのコンテキストとそれ以前の知識にどれだけ依存しているかをトレードオフする必要があります。
我々は,この感性を制御するノブを探索し,言語モデルが文脈から応答するか,それ以前の知識から応答するかを判断する。
論文 参考訳(メタデータ) (2024-11-11T22:22:21Z) - Time Awareness in Large Language Models: Benchmarking Fact Recall Across Time [0.0]
我々は、時間に敏感な事実を扱う大規模言語モデルの能力を厳格にテストするために設計された新しいデータセットを導入する。
我々のベンチマークは、LLMが自身の知識を正しい時間文脈とどのように一致させるかを測定するための体系的な方法を提供する。
論文 参考訳(メタデータ) (2024-09-20T08:57:20Z) - LLMs' Reading Comprehension Is Affected by Parametric Knowledge and Struggles with Hypothetical Statements [59.71218039095155]
言語モデルの自然言語理解(NLU)能力を評価するための主要な手段として、読解理解(RC)があげられる。
文脈がモデルの内部知識と一致している場合、モデルの回答がコンテキスト理解に由来するのか、あるいは内部情報から生じるのかを識別することは困難である。
この問題に対処するために、架空の事実や実体に基づいて、想像上のデータにRCを使うことを提案する。
論文 参考訳(メタデータ) (2024-04-09T13:08:56Z) - Physics of Language Models: Part 3.3, Knowledge Capacity Scaling Laws [51.68385617116854]
スケーリング法則は、言語モデルのサイズと能力の関係を記述している。
我々は、ウィキペディアのページから(米国、首都ワシントンD.C.など)ドメインとして表される事実知識に焦点を当てる。
7Bモデルは、英語のウィキペディアと教科書を合わせた14Bビットの知識を保存できる。
論文 参考訳(メタデータ) (2024-04-08T11:11:31Z) - LAMP: A Language Model on the Map [13.75316123602933]
大規模言語モデル(LLM)は、私たちの生活においてますます重要な役割を担い、幅広いタスクに補助を提供しています。
本研究では,都市固有のデータに基づいて事前学習したモデルを微調整し,正確なレコメンデーションを実現するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-14T02:56:38Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Can Large Language Models Infer Causation from Correlation? [104.96351414570239]
大規模言語モデル(LLM)の純粋因果推論スキルをテストする。
相関文の集合を取り、変数間の因果関係を決定する新しいタスクCorr2Causeを定式化する。
これらのモデルがタスクのランダムな性能にほぼ近い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-09T12:09:15Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。