論文の概要: Revealing the Parametric Knowledge of Language Models: A Unified Framework for Attribution Methods
- arxiv url: http://arxiv.org/abs/2404.18655v1
- Date: Mon, 29 Apr 2024 12:38:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-30 13:47:51.955292
- Title: Revealing the Parametric Knowledge of Language Models: A Unified Framework for Attribution Methods
- Title(参考訳): 言語モデルのパラメトリック知識を探求する:属性手法の統一フレームワーク
- Authors: Haeun Yu, Pepa Atanasova, Isabelle Augenstein,
- Abstract要約: 言語モデル(LM)は、トレーニングプロセスからパラメトリック知識を取得し、それを重みに埋め込む。
インスタンス属性(IA)とニューロン属性(NA)は、このトレーニングによる知識に関する洞察を提供する。
本研究では,IA と NA の知識を定量化し,比較するための新しい評価枠組みを提案する。
- 参考スコア(独自算出の注目度): 45.1662948487385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language Models (LMs) acquire parametric knowledge from their training process, embedding it within their weights. The increasing scalability of LMs, however, poses significant challenges for understanding a model's inner workings and further for updating or correcting this embedded knowledge without the significant cost of retraining. This underscores the importance of unveiling exactly what knowledge is stored and its association with specific model components. Instance Attribution (IA) and Neuron Attribution (NA) offer insights into this training-acquired knowledge, though they have not been compared systematically. Our study introduces a novel evaluation framework to quantify and compare the knowledge revealed by IA and NA. To align the results of the methods we introduce the attribution method NA-Instances to apply NA for retrieving influential training instances, and IA-Neurons to discover important neurons of influential instances discovered by IA. We further propose a comprehensive list of faithfulness tests to evaluate the comprehensiveness and sufficiency of the explanations provided by both methods. Through extensive experiments and analysis, we demonstrate that NA generally reveals more diverse and comprehensive information regarding the LM's parametric knowledge compared to IA. Nevertheless, IA provides unique and valuable insights into the LM's parametric knowledge, which are not revealed by NA. Our findings further suggest the potential of a synergistic approach of combining the diverse findings of IA and NA for a more holistic understanding of an LM's parametric knowledge.
- Abstract(参考訳): 言語モデル(LM)は、トレーニングプロセスからパラメトリック知識を取得し、それを重みに埋め込む。
しかし、LMのスケーラビリティの増大は、モデルの内部動作を理解する上で大きな課題を生じさせ、さらに、組み込まれた知識の更新や修正を、再トレーニングの大幅なコストを伴わずに行う。
このことは、格納されている知識と特定のモデルコンポーネントとの関連を正確に明らかにすることの重要性を浮き彫りにしている。
インスタンス帰属(IA)とニューロン帰属(NA)は、体系的に比較されていないが、この訓練を受けた知識に対する洞察を提供する。
本研究では,IA と NA の知識を定量化し,比較するための新しい評価枠組みを提案する。
提案手法の結果を一致させるために, NA-Instances を用いて, 影響力のあるトレーニングインスタンスを検索し, IA-Neurons を用いて IA-Neurons によって検出された影響インスタンスの重要なニューロンを探索する手法を提案する。
さらに,両手法による説明の包括性と十分性を評価するために,信頼度試験の包括的リストを提案する。
広範な実験と分析を通して、NAは一般的に、IAと比較してLMのパラメトリック知識に関するより多様で包括的な情報を明らかにしている。
それでもIAは、NAが明らかにしていないLMのパラメトリック知識について、ユニークで貴重な洞察を提供する。
さらに,本研究は,IAとNAの多種多様な知見を組み合わせて,LMのパラメトリック知識をより包括的に理解するための相乗的アプローチの可能性も示唆した。
関連論文リスト
- Evaluating the External and Parametric Knowledge Fusion of Large Language Models [72.40026897037814]
我々は、知識融合シナリオをシミュレートするデータ構築と知識注入のための体系的なパイプラインを開発する。
本研究は, LLMにおけるパラメトリック知識の強化が, 知識統合能力を大幅に向上させることを明らかにした。
本研究の目的は,LLM内の外部およびパラメトリック知識の調和を図ることにある。
論文 参考訳(メタデータ) (2024-05-29T11:48:27Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - C-ICL: Contrastive In-context Learning for Information Extraction [54.39470114243744]
c-ICLは、正しいサンプル構築と間違ったサンプル構築の両方を活用して、コンテキスト内学習のデモを作成する、新しい数ショット技術である。
各種データセットに対する実験により,c-ICLは従来の数発のインコンテキスト学習法よりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-02-17T11:28:08Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - UNTER: A Unified Knowledge Interface for Enhancing Pre-trained Language
Models [100.4659557650775]
構造化知識と非構造化知識の両方を活用する統一的な視点を提供するために、統一知識インターフェイスUNTERを提案する。
どちらの形態の知識も注入され、UNTERは一連の知識駆動NLPタスクの継続的な改善を得る。
論文 参考訳(メタデータ) (2023-05-02T17:33:28Z) - Informed Learning by Wide Neural Networks: Convergence, Generalization
and Sampling Complexity [27.84415856657607]
ドメイン知識が情報学習のパフォーマンスにどのような影響を及ぼすか、なぜ研究する。
本稿では,知識の利点をうまく活用し,ラベルと知識の不完全性のバランスをとるための,汎用的な情報教育目標を提案する。
論文 参考訳(メタデータ) (2022-07-02T06:28:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。