論文の概要: LLM-as-a-Fuzzy-Judge: Fine-Tuning Large Language Models as a Clinical Evaluation Judge with Fuzzy Logic
- arxiv url: http://arxiv.org/abs/2506.11221v1
- Date: Thu, 12 Jun 2025 18:31:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.549723
- Title: LLM-as-a-Fuzzy-Judge: Fine-Tuning Large Language Models as a Clinical Evaluation Judge with Fuzzy Logic
- Title(参考訳): LLM-as-a-fuzzy-Judge:ファジィ論理を用いた臨床評価判断としての細調整大言語モデル
- Authors: Weibing Zheng, Laurah Turner, Jess Kropczynski, Murat Ozer, Tri Nguyen, Shane Halse,
- Abstract要約: 本稿では,医学生の臨床スキルと主観的医師の好みを自動評価するLLM-as-a-Fuzzy-Judgeを提案する。
この手法は,4つのファジィ集合からの人間のアノテーションに基づいて,学生とAI患者の会話スクリプトにおける医学生の発話を評価するために微調整されている。
その結果,LLM-as-a-Fuzzy-Judgeの精度は80%以上であり,主要な基準項目は90%以上であることがわかった。
- 参考スコア(独自算出の注目度): 3.1090878361419416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Clinical communication skills are critical in medical education, and practicing and assessing clinical communication skills on a scale is challenging. Although LLM-powered clinical scenario simulations have shown promise in enhancing medical students' clinical practice, providing automated and scalable clinical evaluation that follows nuanced physician judgment is difficult. This paper combines fuzzy logic and Large Language Model (LLM) and proposes LLM-as-a-Fuzzy-Judge to address the challenge of aligning the automated evaluation of medical students' clinical skills with subjective physicians' preferences. LLM-as-a-Fuzzy-Judge is an approach that LLM is fine-tuned to evaluate medical students' utterances within student-AI patient conversation scripts based on human annotations from four fuzzy sets, including Professionalism, Medical Relevance, Ethical Behavior, and Contextual Distraction. The methodology of this paper started from data collection from the LLM-powered medical education system, data annotation based on multidimensional fuzzy sets, followed by prompt engineering and the supervised fine-tuning (SFT) of the pre-trained LLMs using these human annotations. The results show that the LLM-as-a-Fuzzy-Judge achieves over 80\% accuracy, with major criteria items over 90\%, effectively leveraging fuzzy logic and LLM as a solution to deliver interpretable, human-aligned assessment. This work suggests the viability of leveraging fuzzy logic and LLM to align with human preferences, advances automated evaluation in medical education, and supports more robust assessment and judgment practices. The GitHub repository of this work is available at https://github.com/2sigmaEdTech/LLMAsAJudge
- Abstract(参考訳): 臨床コミュニケーションスキルは医学教育において重要であり,臨床コミュニケーションスキルの実践と評価は困難である。
LLMを用いた臨床シナリオシミュレーションは,医学生の臨床実践の促進に有望であることを示しているが,医師の判断に従えば,自動化された,スケーラブルな臨床評価は困難である。
本稿では, ファジィ論理とLarge Language Model(LLM)を組み合わせて, LLM-as-a-Fuzzy-Judgeを提案する。
LLM-as-a-Fuzzy-Judge は,専門性,医療関連性,倫理的行動,文脈的意図といった4つのファジィセットからの人間のアノテーションに基づいて,学生とAI患者の会話スクリプト内での医学生の発話を微調整するアプローチである。
本研究の方法論は, LLM を利用した医療教育システムからのデータ収集, 多次元ファジィ集合に基づくデータアノテーション, 続いて, これらの人間のアノテーションを用いて, 事前学習した LLM のファジィ集合に基づくデータアノテーションと教師付き微調整 (SFT) から始まった。
その結果, LLM-as-a-Fuzzy-Judgeの精度は80%以上であり, 主要な基準項目は90%以上であり, 解釈可能なヒューマンアライメント・アセスメントを実現するソリューションとして, ファジィ論理とLLMを効果的に活用できることが示唆された。
この研究は、ファジィ論理とLLMを活用して人間の嗜好に合わせることの可能性を示唆し、医学教育における自動評価を推進し、より堅牢な評価と判断の実践を支援することを示唆している。
この作業のGitHubリポジトリはhttps://github.com/2sigmaEdTech/LLMAsAJudgeで公開されている。
関連論文リスト
- Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - Structured Outputs Enable General-Purpose LLMs to be Medical Experts [50.02627258858336]
大規模言語モデル(LLM)は、しばしばオープンエンドの医学的問題に苦しむ。
本稿では,構造化医療推論を利用した新しいアプローチを提案する。
我々の手法は85.8のファクチュアリティスコアを達成し、微調整されたモデルを上回る。
論文 参考訳(メタデータ) (2025-03-05T05:24:55Z) - Enhancing Patient-Centric Communication: Leveraging LLMs to Simulate Patient Perspectives [19.462374723301792]
大きな言語モデル(LLM)はロールプレイングのシナリオにおいて印象的な機能を示している。
人間の行動を模倣することで、LLMは具体的な人口統計や専門的なプロファイルに基づいて反応を予測できる。
多様な背景を持つ個人をシミュレーションする上でのLLMの有効性を評価し,これらのシミュレーション行動の一貫性を解析した。
論文 参考訳(メタデータ) (2025-01-12T22:49:32Z) - Demystifying Large Language Models for Medicine: A Primer [50.83806796466396]
大規模言語モデル(LLM)は、医療のさまざまな側面に革命をもたらすことのできる、変革的なAIツールのクラスである。
本チュートリアルは、LSMを臨床実践に効果的に統合するために必要なツールを医療専門家に提供することを目的としている。
論文 参考訳(メタデータ) (2024-10-24T15:41:56Z) - Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis [0.0]
テキサス大学サウスウェスタン医療センター(UTSW)における2,027件のビデオ録画OSCE検査について検討した。
本研究は, 学生の要約作業において, LLMに基づく様々な手法による評価を行い, 評価書に基づいて評価を行った。
以上の結果から, GPT-4のようなフロンティアLLMモデルでは, 人間の学級とのアライメントが顕著であった。
論文 参考訳(メタデータ) (2024-10-11T19:16:03Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Large Language Models Illuminate a Progressive Pathway to Artificial
Healthcare Assistant: A Review [16.008511195589925]
大規模言語モデル(LLM)は、人間のレベルの言語理解と推論を模倣する有望な能力を示している。
本稿では,医学におけるLSMの応用と意義について概説する。
論文 参考訳(メタデータ) (2023-11-03T13:51:36Z) - Don't Ignore Dual Logic Ability of LLMs while Privatizing: A
Data-Intensive Analysis in Medical Domain [19.46334739319516]
本研究では, LLMの二重論理能力が, 医療領域の民営化過程における影響について検討した。
以上の結果から,LLMに汎用ドメイン二重論理データを組み込むことによって,LLMの二重論理能力が向上するだけでなく,精度も向上することが示唆された。
論文 参考訳(メタデータ) (2023-09-08T08:20:46Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。