論文の概要: Context Variance Evaluation of Pretrained Language Models for
Prompt-based Biomedical Knowledge Probing
- arxiv url: http://arxiv.org/abs/2211.10265v1
- Date: Fri, 18 Nov 2022 14:44:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:59:43.614109
- Title: Context Variance Evaluation of Pretrained Language Models for
Prompt-based Biomedical Knowledge Probing
- Title(参考訳): プロンプトに基づくバイオメディカル知識探索のための事前学習言語モデルの文脈変数評価
- Authors: Zonghai Yao, Yi Cao, Zhichao Yang, Hong Yu
- Abstract要約: 本稿では,プロンプトに基づく探索手法が,知識の少ない領域のみを探索できることを示す。
そこで我々は,文脈変化を即時生成に導入し,新しいランク変化に基づく評価指標を提案する。
- 参考スコア(独自算出の注目度): 9.138354194112395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models (PLMs) have motivated research on what kinds of
knowledge these models learn. Fill-in-the-blanks problem (e.g., cloze tests) is
a natural approach for gauging such knowledge. BioLAMA generates prompts for
biomedical factual knowledge triples and uses the Top-k accuracy metric to
evaluate different PLMs' knowledge. However, existing research has shown that
such prompt-based knowledge probing methods can only probe a lower bound of
knowledge. Many factors like prompt-based probing biases make the LAMA
benchmark unreliable and unstable. This problem is more prominent in BioLAMA.
The severe long-tailed distribution in vocabulary and large-N-M relation make
the performance gap between LAMA and BioLAMA remain notable. To address these,
we introduce context variance into the prompt generation and propose a new
rank-change-based evaluation metric. Different from the previous known-unknown
evaluation criteria, we propose the concept of "Misunderstand" in LAMA for the
first time. Through experiments on 12 PLMs, our context variance prompts and
Understand-Confuse-Misunderstand (UCM) metric makes BioLAMA more friendly to
large-N-M relations and rare relations. We also conducted a set of control
experiments to disentangle "understand" from just "read and copy".
- Abstract(参考訳): プレトレーニング言語モデル(PLM)は、これらのモデルがどのような知識を学ぶかを研究する動機となっている。
fill-in-the-blanks問題(例えばcloze test)は、そのような知識を計測するための自然なアプローチである。
BioLAMAは、バイオメディカルな事実知識の3倍のプロンプトを生成し、Top-k精度メトリックを使用して異なるPLMの知識を評価する。
しかし、既存の研究では、そのような素早い知識探索法は低い知識境界しか探索できないことが示されている。
プロンプトベースのプローブバイアスのような多くの要因は、LAMAベンチマークを信頼できず不安定にする。
この問題はBioLAMAでより顕著である。
語彙と大N-M関係の長尾分布は, LAMAとBioLAMAの差が顕著である。
これらの問題に対処するために,プロンプト生成に文脈のばらつきを導入し,新しいランク変更に基づく評価指標を提案する。
これまで知られていなかった評価基準とは異なり,lamaにおける「誤解」の概念を初めて提案する。
12個のPLMの実験を通して、我々の文脈分散プロンプトとUCM(Understand-Confuse-Misunderstand)測定により、BioLAMAは大きなN-M関係や稀な関係に親しみやすい。
我々はまた、単に「読みとコピー」から「理解」を遠ざけるための一連の制御実験を行った。
関連論文リスト
- Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。
本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。
本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文 参考訳(メタデータ) (2024-07-20T11:19:58Z) - Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。
医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。
以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-07-11T16:51:33Z) - What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。
フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。
この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文 参考訳(メタデータ) (2023-05-28T22:46:21Z) - Injecting Knowledge into Biomedical Pre-trained Models via Polymorphism
and Synonymous Substitution [22.471123408160658]
事前学習言語モデル(PLM)は、トレーニングデータに存在する関係知識を格納できると考えられていた。
PLMの低周波リレーショナル知識は、高周波リレーショナル知識と比較して過度に表現される。
PLMにリレーショナル知識を注入する,単純かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-05-24T10:48:53Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources
in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。
いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。
それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文 参考訳(メタデータ) (2022-12-15T23:26:54Z) - Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge
of Pre-trained Language Models [16.535312449449165]
我々は,Unified Medical Language System (UMLS) Metathesaurus に基づくバイオメディカル知識探索ベンチマーク MedLAMA をリリースする。
我々は、最先端のPLMの幅広いスペクトルをテストし、ベンチマークのアプローチを検証し、acc@10の3%に到達した。
提案するContrastive-Probeは,新しい自己監督型コントラスト型探索手法で,探索データを用いずに基礎となるPLMを調整する。
論文 参考訳(メタデータ) (2021-10-15T16:00:11Z) - Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need
in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。
多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。
MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。
本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文 参考訳(メタデータ) (2021-04-26T15:12:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。