論文の概要: How Pre-trained Language Models Capture Factual Knowledge? A
Causal-Inspired Analysis
- arxiv url: http://arxiv.org/abs/2203.16747v1
- Date: Thu, 31 Mar 2022 02:01:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 08:17:13.733707
- Title: How Pre-trained Language Models Capture Factual Knowledge? A
Causal-Inspired Analysis
- Title(参考訳): 事前学習された言語モデルが現実的知識をいかに捉えるか
因果関係に触発された分析
- Authors: Shaobo Li, Xiaoguang Li, Lifeng Shang, Zhenhua Dong, Chengjie Sun,
Bingquan Liu, Zhenzhou Ji, Xin Jiang and Qun Liu
- Abstract要約: PLMは, 効果的な手がかりやショートカットパターンに頼って, 欠落した単語を生成する方法を示す。
欠落した単語に典型的な3つの関連がある単語(知識依存、位置近接、高度に共起する単語)をチェックする。
PLMは、不適切な関連性に依存するため、事実知識を効果的に捉えていないと結論付けている。
- 参考スコア(独自算出の注目度): 43.86843444052966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, there has been a trend to investigate the factual knowledge
captured by Pre-trained Language Models (PLMs). Many works show the PLMs'
ability to fill in the missing factual words in cloze-style prompts such as
"Dante was born in [MASK]." However, it is still a mystery how PLMs generate
the results correctly: relying on effective clues or shortcut patterns? We try
to answer this question by a causal-inspired analysis that quantitatively
measures and evaluates the word-level patterns that PLMs depend on to generate
the missing words. We check the words that have three typical associations with
the missing words: knowledge-dependent, positionally close, and highly
co-occurred. Our analysis shows: (1) PLMs generate the missing factual words
more by the positionally close and highly co-occurred words than the
knowledge-dependent words; (2) the dependence on the knowledge-dependent words
is more effective than the positionally close and highly co-occurred words.
Accordingly, we conclude that the PLMs capture the factual knowledge
ineffectively because of depending on the inadequate associations.
- Abstract(参考訳): 近年,PLM (Pre-trained Language Models) が取得した事実知識を調査する傾向にある。
多くの作品では、plmsが「ダンテはマスクで生まれた」といったクローゼスタイルのプロンプトで欠落した事実語を記入する能力を示している。
しかし、plmが結果を正しく生成する方法は、まだ謎のままである:効果的な手がかりやショートカットパターンに依存するか?
我々は, PLM が依存する単語レベルのパターンを定量的に評価し, 欠落した単語を生成する因果関係に基づく分析によって, この疑問に答えようとしている。
欠落した単語に典型的な3つの関連がある単語(知識依存、位置近接、高度に共起する単語)をチェックする。
分析の結果,(1) PLMは, 知識依存語よりも, 位置依存語と高い共起語により, 事実語をより多く生成し, 2) 知識依存語への依存は, 位置依存語と高い共起語よりも効果的であることがわかった。
したがって, PLMは, 不適切な関連性に依存するため, 事実知識を効果的に捉えない。
関連論文リスト
- Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
本研究では,大言語モデル(LLM)の因果推論能力について,物語から因果関係を推定する代表的な問題から検討する。
最新の言語モデルでさえ、物語の提示とパラメトリック知識の両方において、信頼できないショートカットに依存していることがわかった。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - The Queen of England is not England's Queen: On the Lack of Factual
Coherency in PLMs [2.9443699603751536]
プレトレーニング言語モデル(PLM)に符号化された実知識は、それらの表現を豊かにし、知識ベースとしての使用を正当化する。
これまでの研究は、被験者と関係が与えられたオブジェクトエンティティを正確に予測できる頻度を測定することによって、事実知識のためのPLMの探索に重点を置いてきた。
本研究では、PLMにおける事実的知識の一貫性、すなわち、オブジェクトエンティティの初期予測から、PLMが対象エンティティをどの程度の頻度で予測できるかという相補的な側面について考察する。
論文 参考訳(メタデータ) (2024-02-02T14:42:09Z) - How Well Do Large Language Models Understand Syntax? An Evaluation by
Asking Natural Language Questions [25.39259677000101]
本研究は,構文のレンズを通して問題を探究する。
文理解に最も近い9つの構文的知識ポイントを対象とする質問を作成する。
24大言語モデル(LLM)で実施された実験は、ほとんどの場合、構文的知識が限られていることを示唆している。
論文 参考訳(メタデータ) (2023-11-14T16:30:36Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Probing Across Time: What Does RoBERTa Know and When? [70.20775905353794]
言語知識は、ドメイン間で高速、安定、そして堅牢に獲得されることを示す。
事実と常識はより遅く、ドメインに敏感です。
クロスタイム探索は、これらのモデルが生み出す複雑で混ざった学習を理解するのに役立ち、必要な学習を迅速に行うためのより効率的なアプローチへと導いてくれると信じています。
論文 参考訳(メタデータ) (2021-04-16T04:26:39Z) - Are Pretrained Language Models Symbolic Reasoners Over Knowledge? [5.480912891689259]
推論と記憶の2つの重要なメカニズムについて検討する。
推論では, PLMは記号的推論規則を正しく適用することを学ぶが, 2ホップ推論など他の手法と競合する。
記憶化のために、スキーマの整合性(他の事実によって体系的に支持されるもの)と周波数を、その成功の鍵となる要因として識別する。
論文 参考訳(メタデータ) (2020-06-18T10:40:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。