Fugu-MT 論文翻訳(概要): Dissecting Recall of Factual Associations in Auto-Regressive Language Models

論文の概要: Dissecting Recall of Factual Associations in Auto-Regressive Language Models

arxiv url: http://arxiv.org/abs/2304.14767v1
Date: Fri, 28 Apr 2023 11:26:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-01 14:27:50.554881
Title: Dissecting Recall of Factual Associations in Auto-Regressive Language Models
Title（参考訳）: 自己回帰言語モデルにおけるファクトアソシエーションの解答
Authors: Mor Geva, Jasmijn Bastings, Katja Filippova, Amir Globerson
Abstract要約: トランスフォーマーベースの言語モデル(LM)は、それらのパラメータの事実的知識を捉えることで知られている。モデルが対象と関係に関する情報を集約して正しい属性を予測する方法について検討する。本研究は, 事実関係の保存・抽出方法の総合的な考察をLMに導入した。
参考スコア（独自算出の注目度）: 25.45774794279711
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based language models (LMs) are known to capture factual knowledge in their parameters. While previous work looked into where factual associations are stored, only little is known about how they are retrieved internally during inference. We investigate this question through the lens of information flow. Given a subject-relation query, we study how the model aggregates information about the subject and relation to predict the correct attribute. With interventions on attention edges, we first identify two critical points where information propagates to the prediction: one from the relation positions followed by another from the subject positions. Next, by analyzing the information at these points, we unveil a three-step internal mechanism for attribute extraction. First, the representation at the last-subject position goes through an enrichment process, driven by the early MLP sublayers, to encode many subject-related attributes. Second, information from the relation propagates to the prediction. Third, the prediction representation "queries" the enriched subject to extract the attribute. Perhaps surprisingly, this extraction is typically done via attention heads, which often encode subject-attribute mappings in their parameters. Overall, our findings introduce a comprehensive view of how factual associations are stored and extracted internally in LMs, facilitating future research on knowledge localization and editing.
Abstract（参考訳）: トランスフォーマティブベースの言語モデル(lms)は、そのパラメータの事実的知識をキャプチャすることが知られている。以前の研究では、事実関連が格納されている場所を調査したが、推論中にどのように内部的に検索されるのかは、ほとんど分かっていない。我々はこの質問を情報フローのレンズを通して検討する。そこで本研究では,モデルが対象と関連性に関する情報を集約して正しい属性を予測する方法について検討する。注意点への介入により、まず、情報が予測に伝播する2つの臨界点、すなわち、関係位置からの1つ、対象位置からのもう1つを識別する。次に,これらの点の情報を解析することにより,属性抽出のための3段階の内部メカニズムを明らかにする。まず、最終目的位置での表現は、初期のMLPサブレイヤーによって駆動される濃縮過程を経て、多くの主題関連属性を符号化する。第2に、関係からの情報が予測に伝播する。第三に、予測表現は、リッチな対象を「クエリ」して属性を抽出する。おそらく驚くべきことに、この抽出は一般的に注意頭を通して行われ、しばしばパラメーターの主題属性マッピングを符号化する。総じて,事実関係が lms 内でどのように保存・抽出されるのかを包括的に把握し,知識の局在化と編集に関する今後の研究を促進する。

関連論文リスト

Multiple Streams of Relation Extraction: Enriching and Recalling in Transformers [9.901842773988946]
微調整された言語モデルでは,エンティティの処理中に学習した関係情報を抽出し,その情報を後続のレイヤでリコールし,予測を生成する。これらの情報経路の必要性と十分性について検討し,どの層で発生するか,どの冗長性を示すか,どのモデルコンポーネントが関与しているかを検討する。
論文参考訳（メタデータ） (2025-06-25T18:13:34Z)
Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文参考訳（メタデータ） (2025-04-08T15:22:08Z)
An Attempt to Unraveling Token Prediction Refinement and Identifying Essential Layers of Large Language Models [0.0]
本研究の目的は,大規模言語モデル (LLM) がいかに反復的にトークン予測を洗練するかを明らかにすることである。我々は、LLMが入力コンテキストから情報にアクセスして利用する方法と、関連する情報の配置がモデルのトークン予測改善プロセスにどのように影響するかに焦点を当てた。
論文参考訳（メタデータ） (2025-01-25T03:34:15Z)
Harnessing Large Language Models for Knowledge Graph Question Answering via Adaptive Multi-Aspect Retrieval-Augmentation [81.18701211912779]
本稿では,KG(Amar)フレームワーク上での適応型マルチアスペクト検索手法を提案する。この方法は、エンティティ、リレーション、サブグラフを含む知識を検索し、検索した各テキストを即時埋め込みに変換する。提案手法は2つの共通データセットに対して最先端の性能を達成した。
論文参考訳（メタデータ） (2024-12-24T16:38:04Z)
Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models [5.274653527674298]
Retrieval-Augmented Generation (RAG)モデルは、応答を生成する前に情報を取得するように振舞う。我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。
論文参考訳（メタデータ） (2024-10-07T16:14:47Z)
Where is the answer? Investigating Positional Bias in Language Model Knowledge Extraction [36.40833517478628]
大規模な言語モデルでは、更新を最新状態に保つか、あるいは新しいドメインに適応する必要がある。 1つの鍵は、記憶された情報がクエリプロンプトで抽出可能な方法で最新の情報を記憶することである。微調整中に文書の難易度を最小化しているにもかかわらず、LLMはプロンプト文を通して情報を取り出すのに苦労している。
論文参考訳（メタデータ） (2024-02-16T06:29:16Z)
A Mechanistic Interpretation of Arithmetic Reasoning in Language Models using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文参考訳（メタデータ） (2023-05-24T11:43:47Z)
MIANet: Aggregating Unbiased Instance and General Information for Few-Shot Semantic Segmentation [6.053853367809978]
既存の少数ショットセグメンテーション手法はメタラーニング戦略に基づいて,サポートセットからインスタンス知識を抽出する。本稿では,多情報集約ネットワーク(MIANet)を提案する。 PASCAL-5iとCOCO-20iの実験により、MIANetは優れた性能を示し、新しい最先端技術を確立した。
論文参考訳（メタデータ） (2023-05-23T09:36:27Z)
Link Prediction on N-ary Relational Data Based on Relatedness Evaluation [61.61555159755858]
我々は,n-aryリレーショナルデータ上でリンク予測を行うNaLPという手法を提案する。各 n 個の関係事実を、その役割と役割と値のペアの集合として表現する。実験結果は,提案手法の有効性と有用性を検証した。
論文参考訳（メタデータ） (2021-04-21T09:06:54Z)
Learning from Context or Names? An Empirical Study on Neural Relation Extraction [112.06614505580501]
テキストにおける2つの主要な情報ソースの効果について検討する:テキストコンテキストとエンティティ参照(名前) 本稿では,関係抽出のための実体型コントラスト事前学習フレームワーク(RE)を提案する。我々のフレームワークは、異なるREシナリオにおけるニューラルモデルの有効性と堅牢性を改善することができる。
論文参考訳（メタデータ） (2020-10-05T11:21:59Z)
Attention improves concentration when learning node embeddings [1.2233362977312945]
検索クエリテキストでラベル付けされたノードを考えると、製品を共有する関連クエリへのリンクを予測したい。様々なディープニューラルネットワークを用いた実験では、注意機構を備えた単純なフィードフォワードネットワークが埋め込み学習に最適であることが示されている。本稿では,クエリ生成モデルであるAttESTを提案する。このモデルでは,製品とクエリテキストの両方を,潜在空間に埋め込まれたベクトルとして見ることができる。
論文参考訳（メタデータ） (2020-06-11T21:21:12Z)
Visual Question Answering with Prior Class Semantics [50.845003775809836]
候補解のセマンティクスに関連する追加情報を利用する方法を示す。セマンティック空間における回帰目標を用いて解答予測プロセスを拡張する。提案手法は,様々な質問タイプに対して,一貫性と精度の向上をもたらす。
論文参考訳（メタデータ） (2020-05-04T02:46:31Z)
Self-Attention Attribution: Interpreting Information Interactions Inside Transformer [89.21584915290319]
本稿では,トランスフォーマー内の情報相互作用を解釈する自己帰属属性法を提案する。本研究は,BERT に対する非目標攻撃の実装において,その属性を敵対パターンとして用いることができることを示す。
論文参考訳（メタデータ） (2020-04-23T14:58:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。