論文の概要: PretextTrans: Investigating Medical Factual Knowledge Mastery of LLMs with Predicate-text Dual Transformation
- arxiv url: http://arxiv.org/abs/2409.14302v1
- Date: Wed, 2 Oct 2024 15:17:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 23:15:03.795732
- Title: PretextTrans: Investigating Medical Factual Knowledge Mastery of LLMs with Predicate-text Dual Transformation
- Title(参考訳): PretextTrans: 述語テキストのデュアルトランスフォーメーションを用いたLCMの医療ファクチュアル知識の育成
- Authors: Yuxuan Zhou, Xien Liu, Chen Ning, Ji Wu,
- Abstract要約: LLMが直接作成したテストサンプルは、常に事実エラーを導入し、知識表現の方法の多様性を欠いている。
動的評価スキーマに述語変換を導入することにより、新しい評価手法Predicate-text Dual Transformation(PretextTrans)を提案する。
提案したPretextTrans法を用いて,2つの医療データセットに基づいて,12の有名なLCMによる医療事実知識の習得を体系的に検討した。
- 参考スコア(独自算出の注目度): 4.8004472307210255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the study, we aim to investigate current LLMs' mastery of medical factual knowledge with a dynamic evaluation schema, which can automatically generate multiple test samples for each medical factual knowledge point. Test samples produced directly by LLMs always introduce factual errors and lack diversity in the manner of knowledge expression. To overcome the drawbacks, here we propose a novel evaluation method, Predicate-text Dual Transformation (PretextTrans), by introducing predicate transformations into the dynamic evaluation schema. Specifically, each medical knowledge point is firstly transformed into a predicate expression; then, the predicate expression derives a series of variants through predicate transformations; lastly, the produced predicate variants are transformed back into textual expressions, resulting in a series of test samples with both factual reliability and expression diversity. Using the proposed PretextTrans method, we systematically investigate 12 well-known LLMs' mastery of medical factual knowledge based on two medical datasets. The comparison results show that current LLMs still have significant deficiencies in fully mastering medical knowledge, which may illustrate why current LLMs still perform unsatisfactorily in real-world medical scenarios despite having achieved considerable performance on public benchmarks. Our proposed method serves as an effective solution for evaluation of LLMs in medical domain and offers valuable insights for developing medical-specific LLMs.
- Abstract(参考訳): 本研究では,各医療事実知識ポイント毎に複数の検査サンプルを自動生成する動的評価スキーマを用いて,現在のLLMの医療事実知識の習得について検討することを目的とする。
LLMが直接作成したテストサンプルは、常に事実エラーを導入し、知識表現の方法の多様性を欠いている。
そこで本研究では,動的評価スキーマに述語変換を導入することにより,新しい評価手法であるPredicate-text Dual Transformation(PretextTrans)を提案する。
具体的には、まず、各医学知識点は述語表現に変換され、次に述語表現は述語変換を通して一連の変種を導出する。
提案したPretextTrans法を用いて,2つの医療データセットに基づいて,12の有名なLCMによる医療事実知識の習得を体系的に検討した。
比較の結果,現在のLSMは医療知識を十分に習得するにはまだ重大な欠陥があることが明らかとなった。
提案手法は,医学領域におけるLSMの評価に有効な解法であり,医学固有のLSMの開発に有用な知見を提供する。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - MedREQAL: Examining Medical Knowledge Recall of Large Language Models via Question Answering [5.065947993017158]
大きな言語モデル(LLM)は、大きなテキストコーパスで事前学習中に知識を符号化する印象的な能力を示している。
体系的レビューから得られた新しいデータセットを構築することにより, LLMが医療知識のリコールを示す能力について検討する。
論文 参考訳(メタデータ) (2024-06-09T16:33:28Z) - MultifacetEval: Multifaceted Evaluation to Probe LLMs in Mastering Medical Knowledge [4.8004472307210255]
大規模言語モデル (LLMs) はドメイン間で優れており、医療評価ベンチマークで顕著なパフォーマンスを提供している。
しかし、実際の医療シナリオにおける報告されたパフォーマンスと実践的効果の間には、依然として大きなギャップがある。
医療知識のエンコーディングと習得におけるLLMの程度と範囲を検討するための,新しい評価フレームワークであるMultifacetEvalを開発した。
論文 参考訳(メタデータ) (2024-06-05T04:15:07Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - MedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large
Language Models [56.36916128631784]
中国の医療分野の総合的なベンチマークであるMedBenchを紹介する。
このベンチマークは、中国の医療ライセンス試験、居住者標準化訓練試験、および現実世界のクリニックの4つの主要なコンポーネントで構成されている。
幅広い実験を行い, 多様な視点から詳細な分析を行い, 以下の結果を得た。
論文 参考訳(メタデータ) (2023-12-20T07:01:49Z) - A Survey of Large Language Models in Medicine: Progress, Application, and Challenge [85.09998659355038]
大規模言語モデル (LLM) は、人間の言語を理解し、生成する能力のために大きな注目を集めている。
本総説は,医学におけるLSMの開発と展開について概説することを目的としている。
論文 参考訳(メタデータ) (2023-11-09T02:55:58Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Knowledge-tuning Large Language Models with Structured Medical Knowledge
Bases for Reliable Response Generation in Chinese [29.389119917322102]
大規模言語モデル(LLM)は、汎用ドメインにおける多種多様な自然言語処理(NLP)タスクにおいて顕著な成功を収めている。
本稿では,LLMがドメイン知識を効率的に把握するために,構造化された医療知識ベースを活用する知識チューニングを提案する。
また、医療知識ベースから構築された中国の医学知識質問応答データセットであるcMedKnowQAをリリースする。
論文 参考訳(メタデータ) (2023-09-08T07:42:57Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。