論文の概要: Context Variance Evaluation of Pretrained Language Models for
Prompt-based Biomedical Knowledge Probing
- arxiv url: http://arxiv.org/abs/2211.10265v1
- Date: Fri, 18 Nov 2022 14:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:59:43.614109
- Title: Context Variance Evaluation of Pretrained Language Models for
Prompt-based Biomedical Knowledge Probing
- Title(参考訳): プロンプトに基づくバイオメディカル知識探索のための事前学習言語モデルの文脈変数評価
- Authors: Zonghai Yao, Yi Cao, Zhichao Yang, Hong Yu
- Abstract要約: 本稿では,プロンプトに基づく探索手法が,知識の少ない領域のみを探索できることを示す。
そこで我々は,文脈変化を即時生成に導入し,新しいランク変化に基づく評価指標を提案する。
- 参考スコア(独自算出の注目度): 9.138354194112395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) have motivated research on what kinds of
knowledge these models learn. Fill-in-the-blanks problem (e.g., cloze tests) is
a natural approach for gauging such knowledge. BioLAMA generates prompts for
biomedical factual knowledge triples and uses the Top-k accuracy metric to
evaluate different PLMs' knowledge. However, existing research has shown that
such prompt-based knowledge probing methods can only probe a lower bound of
knowledge. Many factors like prompt-based probing biases make the LAMA
benchmark unreliable and unstable. This problem is more prominent in BioLAMA.
The severe long-tailed distribution in vocabulary and large-N-M relation make
the performance gap between LAMA and BioLAMA remain notable. To address these,
we introduce context variance into the prompt generation and propose a new
rank-change-based evaluation metric. Different from the previous known-unknown
evaluation criteria, we propose the concept of "Misunderstand" in LAMA for the
first time. Through experiments on 12 PLMs, our context variance prompts and
Understand-Confuse-Misunderstand (UCM) metric makes BioLAMA more friendly to
large-N-M relations and rare relations. We also conducted a set of control
experiments to disentangle "understand" from just "read and copy".
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、これらのモデルがどのような知識を学ぶかを研究する動機となっている。
fill-in-the-blanks問題(例えばcloze test)は、そのような知識を計測するための自然なアプローチである。
BioLAMAは、バイオメディカルな事実知識の3倍のプロンプトを生成し、Top-k精度メトリックを使用して異なるPLMの知識を評価する。
しかし、既存の研究では、そのような素早い知識探索法は低い知識境界しか探索できないことが示されている。
プロンプトベースのプローブバイアスのような多くの要因は、LAMAベンチマークを信頼できず不安定にする。
この問題はBioLAMAでより顕著である。
語彙と大N-M関係の長尾分布は, LAMAとBioLAMAの差が顕著である。
これらの問題に対処するために,プロンプト生成に文脈のばらつきを導入し,新しいランク変更に基づく評価指標を提案する。
これまで知られていなかった評価基準とは異なり,lamaにおける「誤解」の概念を初めて提案する。
12個のPLMの実験を通して、我々の文脈分散プロンプトとUCM(Understand-Confuse-Misunderstand)測定により、BioLAMAは大きなN-M関係や稀な関係に親しみやすい。
我々はまた、単に「読みとコピー」から「理解」を遠ざけるための一連の制御実験を行った。
関連論文リスト
- R-Tuning: Teaching Large Language Models to Refuse Unknown Questions [68.60002086172133]
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
このアプローチは、まずパラメトリック知識と命令チューニングデータの間の知識ギャップを識別することによって定式化される。
実験により、この新しい命令チューニングアプローチは、既知の質問に答えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - DCID: Deep Canonical Information Decomposition [84.59396326810085]
本稿では,2つの1次元目標変数間で共有される信号の同定について考察する。
そこで本研究では,地中トラスラベルの存在下で使用可能な評価指標であるICMを提案する。
また、共有変数を学習するための単純かつ効果的なアプローチとして、Deep Canonical Information Decomposition (DCID)を提案する。
論文 参考訳(メタデータ) (2023-06-27T16:59:06Z) - Injecting Knowledge into Biomedical Pre-trained Models via Polymorphism
and Synonymous Substitution [22.471123408160658]
事前学習言語モデル(PLM)は、トレーニングデータに存在する関係知識を格納できると考えられていた。
PLMの低周波リレーショナル知識は、高周波リレーショナル知識と比較して過度に表現される。
PLMにリレーショナル知識を注入する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:48:53Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Causality-aware Concept Extraction based on Knowledge-guided Prompting [17.4086571624748]
概念は自然言語理解の恩恵を受けるが、既存の知識グラフ(KG)では完全とは程遠い。
近年,テキストベースの概念抽出において,事前学習言語モデル (PLM) が広く用いられている。
本稿では, PLM を用いた抽出器に知識誘導型プロンプトを装着することで, 概念バイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2023-05-03T03:36:20Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Extracting Biomedical Factual Knowledge Using Pretrained Language Model
and Electronic Health Record Context [7.7971830917251275]
我々は、言語モデル(LM)から知識を抽出するプロンプト手法を、新しい知識ベース(LM)として用いる。
バイオメディカル領域における低バウンドを改善するプロンプトに、特にEHRノートをコンテキストとして追加する。
実験の結果、これらの言語モデルが持つ知識は、EHRノートのノイズ知識と正しい知識を区別できることがわかった。
論文 参考訳(メタデータ) (2022-08-26T00:01:26Z) - Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge
of Pre-trained Language Models [16.535312449449165]
我々は,Unified Medical Language System (UMLS) Metathesaurus に基づくバイオメディカル知識探索ベンチマーク MedLAMA をリリースする。
我々は、最先端のPLMの幅広いスペクトルをテストし、ベンチマークのアプローチを検証し、acc@10の3%に到達した。
提案するContrastive-Probeは,新しい自己監督型コントラスト型探索手法で,探索データを用いずに基礎となるPLMを調整する。
論文 参考訳(メタデータ) (2021-10-15T16:00:11Z) - Do language models learn typicality judgments from text? [6.252236971703546]
認知科学における一般的な現象である典型性に関する予測言語モデル(LM)を評価する。
最初の試験は、分類学的分類群を項目に割り当てる際、典型性がLMを調節するかどうかを目標とする。
第2の試験は、アイテムに関する新しい情報をそのカテゴリに拡張する際に、LMの確率の典型性に対する感受性を調査する。
論文 参考訳(メタデータ) (2021-05-06T21:56:40Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。