Fugu-MT 論文翻訳(概要): Context Variance Evaluation of Pretrained Language Models for Prompt-based Biomedical Knowledge Probing

論文の概要: Context Variance Evaluation of Pretrained Language Models for Prompt-based Biomedical Knowledge Probing

arxiv url: http://arxiv.org/abs/2211.10265v1
Date: Fri, 18 Nov 2022 14:44:09 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-21 13:59:43.614109
Title: Context Variance Evaluation of Pretrained Language Models for Prompt-based Biomedical Knowledge Probing
Title（参考訳）: プロンプトに基づくバイオメディカル知識探索のための事前学習言語モデルの文脈変数評価
Authors: Zonghai Yao, Yi Cao, Zhichao Yang, Hong Yu
Abstract要約: 本稿では,プロンプトに基づく探索手法が,知識の少ない領域のみを探索できることを示す。そこで我々は,文脈変化を即時生成に導入し,新しいランク変化に基づく評価指標を提案する。
参考スコア（独自算出の注目度）: 9.138354194112395
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Pretrained language models (PLMs) have motivated research on what kinds of knowledge these models learn. Fill-in-the-blanks problem (e.g., cloze tests) is a natural approach for gauging such knowledge. BioLAMA generates prompts for biomedical factual knowledge triples and uses the Top-k accuracy metric to evaluate different PLMs' knowledge. However, existing research has shown that such prompt-based knowledge probing methods can only probe a lower bound of knowledge. Many factors like prompt-based probing biases make the LAMA benchmark unreliable and unstable. This problem is more prominent in BioLAMA. The severe long-tailed distribution in vocabulary and large-N-M relation make the performance gap between LAMA and BioLAMA remain notable. To address these, we introduce context variance into the prompt generation and propose a new rank-change-based evaluation metric. Different from the previous known-unknown evaluation criteria, we propose the concept of "Misunderstand" in LAMA for the first time. Through experiments on 12 PLMs, our context variance prompts and Understand-Confuse-Misunderstand (UCM) metric makes BioLAMA more friendly to large-N-M relations and rare relations. We also conducted a set of control experiments to disentangle "understand" from just "read and copy".
Abstract（参考訳）: プレトレーニング言語モデル(PLM)は、これらのモデルがどのような知識を学ぶかを研究する動機となっている。 fill-in-the-blanks問題(例えばcloze test)は、そのような知識を計測するための自然なアプローチである。 BioLAMAは、バイオメディカルな事実知識の3倍のプロンプトを生成し、Top-k精度メトリックを使用して異なるPLMの知識を評価する。しかし、既存の研究では、そのような素早い知識探索法は低い知識境界しか探索できないことが示されている。プロンプトベースのプローブバイアスのような多くの要因は、LAMAベンチマークを信頼できず不安定にする。この問題はBioLAMAでより顕著である。語彙と大N-M関係の長尾分布は, LAMAとBioLAMAの差が顕著である。これらの問題に対処するために,プロンプト生成に文脈のばらつきを導入し,新しいランク変更に基づく評価指標を提案する。これまで知られていなかった評価基準とは異なり,lamaにおける「誤解」の概念を初めて提案する。 12個のPLMの実験を通して、我々の文脈分散プロンプトとUCM(Understand-Confuse-Misunderstand)測定により、BioLAMAは大きなN-M関係や稀な関係に親しみやすい。我々はまた、単に「読みとコピー」から「理解」を遠ざけるための一連の制御実験を行った。

関連論文リスト

Paths to Causality: Finding Informative Subgraphs Within Knowledge Graphs for Knowledge-Based Causal Discovery [10.573861741540853]
本稿では,知識グラフ(KG)をLarge Language Models(LLM)と統合し,知識に基づく因果探索を強化する新しい手法を提案する。本稿では,KGs内の情報的メタパスに基づくサブグラフを特定し,ラーニング・トゥ・ランクモデルを用いて,これらのサブグラフの選択をさらに洗練する。本手法は,F1スコアにおいて最大44.4ポイントのベースラインを上回り,多種多様LLMおよびKGで評価した。
論文参考訳（メタデータ） (2025-06-10T13:13:55Z)
Inside-Out: Hidden Factual Knowledge in LLMs [50.79758420289131]
この研究は、大言語モデル(LLM)が出力で表現したものよりも、パラメータの事実的知識を符号化するかどうかを評価するためのフレームワークを示す。まず、与えられた質問に対して、正解が上位にランクされている正解対の分数として、その知識の形式的定義を定量化する。次に、このフレームワークを3つの人気のあるオープンウェイト LLM に適用し、クローズドブック QA セットアップのケーススタディを示す。
論文参考訳（メタデータ） (2025-03-19T15:21:48Z)
Fact or Guesswork? Evaluating Large Language Model's Medical Knowledge with Structured One-Hop Judgment [108.55277188617035]
大規模言語モデル(LLM)は、様々な下流タスクドメインで広く採用されているが、実際の医学的知識を直接呼び起こし適用する能力はいまだ探索されていない。既存の医療QAベンチマークの多くは、複雑な推論やマルチホップ推論を評価しており、LSM固有の医療知識を推論能力から切り離すことが困難である。 LLMの1ホップの医療知識を測定するために特別に設計されたデータセットであるMedical Knowledge Judgmentを紹介する。
論文参考訳（メタデータ） (2025-02-20T05:27:51Z)
Understanding the Relationship between Prompts and Response Uncertainty in Large Language Models [55.332004960574004]
大規模言語モデル(LLM)は意思決定に広く使用されているが、特に医療などの重要なタスクにおける信頼性は十分に確立されていない。本稿では,LSMが生成する応答の不確実性が,入力プロンプトで提供される情報とどのように関連しているかを検討する。本稿では,LLMが応答を生成する方法を説明し,プロンプトと応答の不確実性の関係を理解するためのプロンプト応答の概念モデルを提案する。
論文参考訳（メタデータ） (2024-07-20T11:19:58Z)
Uncertainty Estimation of Large Language Models in Medical Question Answering [60.72223137560633]
大規模言語モデル(LLM)は、医療における自然言語生成の約束を示すが、事実的に誤った情報を幻覚させるリスクがある。医学的問合せデータセットのモデルサイズが異なる人気不確実性推定(UE)手法をベンチマークする。以上の結果から,本領域における現在のアプローチは,医療応用におけるUEの課題を浮き彫りにしている。
論文参考訳（メタデータ） (2024-07-11T16:51:33Z)
What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文参考訳（メタデータ） (2024-06-18T05:11:35Z)
Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文参考訳（メタデータ） (2024-04-19T15:40:39Z)
FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文参考訳（メタデータ） (2023-10-05T00:04:12Z)
Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation [0.0]
本研究は,生物医学的背景知識と対話するための大規模言語モデルの可能性を探るものである。フレームワークには3つの評価ステップが含まれており、それぞれが流布、即応的なアライメント、セマンティック・コヒーレンス、事実的知識、生成した応答の特異性という3つの側面を逐次評価する。この研究は、ChatGPT、GPT-4、Llama 2を含む11の最先端のLLMを2つのプロンプトベースタスクで持つ能力に関する体系的な評価を提供する。
論文参考訳（メタデータ） (2023-05-28T22:46:21Z)
Injecting Knowledge into Biomedical Pre-trained Models via Polymorphism and Synonymous Substitution [22.471123408160658]
事前学習言語モデル(PLM)は、トレーニングデータに存在する関係知識を格納できると考えられていた。 PLMの低周波リレーショナル知識は、高周波リレーショナル知識と比較して過度に表現される。 PLMにリレーショナル知識を注入する,単純かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2023-05-24T10:48:53Z)
Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文参考訳（メタデータ） (2023-05-15T15:47:09Z)
The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources in Natural Language Understanding Systems [87.3207729953778]
我々は、データセット上で最先端のコア参照解決モデルを評価する。いくつかのモデルは、事前訓練時間と推論時間の両方で観察された知識について、オンザフライで推論するのに苦労している。それでも、最高のパフォーマンスモデルでさえ、推論時にのみ提示される知識を確実に統合するのは難しいようです。
論文参考訳（メタデータ） (2022-12-15T23:26:54Z)
Rewire-then-Probe: A Contrastive Recipe for Probing Biomedical Knowledge of Pre-trained Language Models [16.535312449449165]
我々は,Unified Medical Language System (UMLS) Metathesaurus に基づくバイオメディカル知識探索ベンチマーク MedLAMA をリリースする。我々は、最先端のPLMの幅広いスペクトルをテストし、ベンチマークのアプローチを検証し、acc@10の3%に到達した。提案するContrastive-Probeは,新しい自己監督型コントラスト型探索手法で,探索データを用いずに基礎となるPLMを調整する。
論文参考訳（メタデータ） (2021-10-15T16:00:11Z)
Exploring Bayesian Deep Learning for Urgent Instructor Intervention Need in MOOC Forums [58.221459787471254]
大規模なオープンオンラインコース(MOOC)は、その柔軟性のおかげで、eラーニングの一般的な選択肢となっている。多くの学習者とその多様な背景から、リアルタイムサポートの提供は課税されている。 MOOCインストラクターの大量の投稿と高い作業負荷により、インストラクターが介入を必要とするすべての学習者を識別できる可能性は低いです。本稿では,モンテカルロドロップアウトと変分推論という2つの手法を用いて,学習者によるテキスト投稿のベイジアン深層学習を初めて検討する。
論文参考訳（メタデータ） (2021-04-26T15:12:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。