論文の概要: Measuring the Knowledge Acquisition-Utilization Gap in Pretrained
Language Models
- arxiv url: http://arxiv.org/abs/2305.14775v1
- Date: Wed, 24 May 2023 06:26:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 19:12:46.601086
- Title: Measuring the Knowledge Acquisition-Utilization Gap in Pretrained
Language Models
- Title(参考訳): 事前学習言語モデルにおける知識獲得・活用ギャップの測定
- Authors: Amirhossein Kazemnejad, Mehdi Rezagholizadeh, Prasanna Parthasarathi,
Sarath Chandar
- Abstract要約: 事前訓練された言語モデル(PLM)は、膨大な量の知識を取得する証拠を示している。
このパラメトリックな知識が、下流のタスクの実行に実際にどの程度使えるかは、まだ不明である。
PLMにおけるパラメトリック知識利用量を測定するための体系的枠組みを提案する。
- 参考スコア(独自算出の注目度): 26.342351417963965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While pre-trained language models (PLMs) have shown evidence of acquiring
vast amounts of knowledge, it remains unclear how much of this parametric
knowledge is actually usable in performing downstream tasks. We propose a
systematic framework to measure parametric knowledge utilization in PLMs. Our
framework first extracts knowledge from a PLM's parameters and subsequently
constructs a downstream task around this extracted knowledge. Performance on
this task thus depends exclusively on utilizing the model's possessed
knowledge, avoiding confounding factors like insufficient signal. As an
instantiation, we study factual knowledge of PLMs and measure utilization
across 125M to 13B parameter PLMs. We observe that: (1) PLMs exhibit two gaps -
in acquired vs. utilized knowledge, (2) they show limited robustness in
utilizing knowledge under distribution shifts, and (3) larger models close the
acquired knowledge gap but the utilized knowledge gap remains. Overall, our
study provides insights into PLMs' capabilities beyond their acquired
knowledge.
- Abstract(参考訳): 事前学習された言語モデル(plm)は膨大な量の知識を得ることの証拠を示してきたが、このパラメトリックな知識が実際に下流のタスクを実行するのにどの程度使えるのかは不明だ。
PLMにおけるパラメトリック知識利用量を測定するための体系的枠組みを提案する。
本フレームワークはまず,まずPLMのパラメータから知識を抽出し,次に抽出した知識を中心に下流タスクを構築する。
したがって、このタスクの性能はモデルが保持する知識の活用にのみ依存し、不十分な信号のような要素の結合を避ける。
そこで本研究では,PLMの実態を考察し,125Mから13BのパラメータPLMを用いた実測を行った。
1)plmは獲得知識と活用知識の2つのギャップを示し,(2)分布シフト下での知識の活用において限定的な堅牢性を示し,(3)より大きなモデルでは獲得知識のギャップを閉じるが、活用知識のギャップは残る。
全体として、我々の研究は、獲得した知識を超えたPLMの能力についての洞察を提供する。
関連論文リスト
- Evaluating the External and Parametric Knowledge Fusion of Large Language Models [72.40026897037814]
我々は、知識融合シナリオをシミュレートするデータ構築と知識注入のための体系的なパイプラインを開発する。
本研究は, LLMにおけるパラメトリック知識の強化が, 知識統合能力を大幅に向上させることを明らかにした。
本研究の目的は,LLM内の外部およびパラメトリック知識の調和を図ることにある。
論文 参考訳(メタデータ) (2024-05-29T11:48:27Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - Knowledge Plugins: Enhancing Large Language Models for Domain-Specific
Recommendations [50.81844184210381]
本稿では,大規模言語モデルをDOmain固有のKnowledgEで拡張し,実践的アプリケーション,すなわちDOKEの性能を向上させるためのパラダイムを提案する。
このパラダイムはドメイン知識抽出器に依存し,1)タスクに効果的な知識を準備すること,2)特定のサンプルごとに知識を選択すること,3)LLMで理解可能な方法で知識を表現すること,の3つのステップで動作する。
論文 参考訳(メタデータ) (2023-11-16T07:09:38Z) - Give Me the Facts! A Survey on Factual Knowledge Probing in Pre-trained
Language Models [2.3981254787726067]
事前訓練された言語モデル(PLM)は、世界知識に富んだ膨大なラベルのないデータに基づいて訓練されている。
このことが、PLMに存在する事実知識の量を定量化するコミュニティの関心を喚起した。
本研究では,PLMの実態を調査するための手法とデータセットについて検討する。
論文 参考訳(メタデータ) (2023-10-25T11:57:13Z) - Thrust: Adaptively Propels Large Language Models with External Knowledge [58.72867916604562]
大規模事前学習言語モデル(PTLM)は、モデルパラメータの豊富な知識を符号化する。
PTLMの固有の知識は不透明または静的であり、外部の知識を必要とする。
本稿では,外部知識のインスタンスレベル適応推進(IAPEK)を提案する。
論文 参考訳(メタデータ) (2023-07-19T20:16:46Z) - Measuring and Modifying Factual Knowledge in Large Language Models [2.8427946758947304]
大規模言語モデルは、膨大なテキストコレクションから得られた膨大な事実知識を格納する。
我々は,情報理論に基づく測度を用いて,大規模言語モデルに含まれる事実知識を推定する枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-09T21:25:48Z) - Decouple knowledge from parameters for plug-and-play language modeling [77.5601135412186]
差別化可能なプラグインメモリ(DPM)を備えた事前学習モデルPlugLMを導入する。
鍵となる直感は、編集可能でスケーラブルなキーバリューメモリで、知識ストレージをモデルパラメータから切り離すことである。
PlugLMは4つのドメインで平均3.95のF1改善を実現している。
論文 参考訳(メタデータ) (2023-05-19T10:01:55Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Knowledgeable Salient Span Mask for Enhancing Language Models as
Knowledge Base [51.55027623439027]
我々は、モデルが構造化されていないテキストから、完全に自己教師された方法でより多くの知識を学習するのを助ける2つのソリューションを開発する。
最高の知識を得るために、私たちは、継続的事前学習における知識の完全な自己教師型学習を初めて探求します。
論文 参考訳(メタデータ) (2022-04-17T12:33:34Z) - KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification
and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。
KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。
KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文 参考訳(メタデータ) (2022-02-28T03:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。