論文の概要: Dissecting Recall of Factual Associations in Auto-Regressive Language
Models
- arxiv url: http://arxiv.org/abs/2304.14767v1
- Date: Fri, 28 Apr 2023 11:26:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-01 14:27:50.554881
- Title: Dissecting Recall of Factual Associations in Auto-Regressive Language
Models
- Title(参考訳): 自己回帰言語モデルにおけるファクトアソシエーションの解答
- Authors: Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson
- Abstract要約: トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。
モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。
本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
- 参考スコア(独自算出の注目度): 25.45774794279711
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models (LMs) are known to capture factual
knowledge in their parameters. While previous work looked into where factual
associations are stored, only little is known about how they are retrieved
internally during inference. We investigate this question through the lens of
information flow. Given a subject-relation query, we study how the model
aggregates information about the subject and relation to predict the correct
attribute. With interventions on attention edges, we first identify two
critical points where information propagates to the prediction: one from the
relation positions followed by another from the subject positions. Next, by
analyzing the information at these points, we unveil a three-step internal
mechanism for attribute extraction. First, the representation at the
last-subject position goes through an enrichment process, driven by the early
MLP sublayers, to encode many subject-related attributes. Second, information
from the relation propagates to the prediction. Third, the prediction
representation "queries" the enriched subject to extract the attribute. Perhaps
surprisingly, this extraction is typically done via attention heads, which
often encode subject-attribute mappings in their parameters. Overall, our
findings introduce a comprehensive view of how factual associations are stored
and extracted internally in LMs, facilitating future research on knowledge
localization and editing.
- Abstract(参考訳): トランスフォーマティブベースの言語モデル(lms)は、そのパラメータの事実的知識をキャプチャすることが知られている。
以前の研究では、事実関連が格納されている場所を調査したが、推論中にどのように内部的に検索されるのかは、ほとんど分かっていない。
我々はこの質問を情報フローのレンズを通して検討する。
そこで本研究では,モデルが対象と関連性に関する情報を集約して正しい属性を予測する方法について検討する。
注意点への介入により、まず、情報が予測に伝播する2つの臨界点、すなわち、関係位置からの1つ、対象位置からのもう1つを識別する。
次に,これらの点の情報を解析することにより,属性抽出のための3段階の内部メカニズムを明らかにする。
まず、最終目的位置での表現は、初期のMLPサブレイヤーによって駆動される濃縮過程を経て、多くの主題関連属性を符号化する。
第2に、関係からの情報が予測に伝播する。
第三に、予測表現は、リッチな対象を「クエリ」して属性を抽出する。
おそらく驚くべきことに、この抽出は一般的に注意頭を通して行われ、しばしばパラメーターの主題属性マッピングを符号化する。
総じて,事実関係が lms 内でどのように保存・抽出されるのかを包括的に把握し,知識の局在化と編集に関する今後の研究を促進する。
関連論文リスト
- Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models [5.274653527674298]
Retrieval-Augmented Generation (RAG)モデルは、応答を生成する前に情報を取得するように振舞う。
我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。
論文 参考訳(メタデータ) (2024-10-07T16:14:47Z) - Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。
1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。
微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文 参考訳(メタデータ) (2024-02-16T06:29:16Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - MIANet: Aggregating Unbiased Instance and General Information for
Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。
本稿では,多情報集約ネットワーク(MIANet)を提案する。
PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-23T09:36:27Z) - Link Prediction on N-ary Relational Data Based on Relatedness Evaluation [61.61555159755858]
我々は,n-aryリレーショナルデータ上でリンク予測を行うNaLPという手法を提案する。
各 n 個の関係事実を、その役割と役割と値のペアの集合として表現する。
実験結果は,提案手法の有効性と有用性を検証した。
論文 参考訳(メタデータ) (2021-04-21T09:06:54Z) - Learning from Context or Names? An Empirical Study on Neural Relation
Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前)
本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。
我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文 参考訳(メタデータ) (2020-10-05T11:21:59Z) - Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。
様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。
本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文 参考訳(メタデータ) (2020-06-11T21:21:12Z) - Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。
セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。
提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文 参考訳(メタデータ) (2020-05-04T02:46:31Z) - Self-Attention Attribution: Interpreting Information Interactions Inside
Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。
本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文 参考訳(メタデータ) (2020-04-23T14:58:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。