論文の概要: LLM-Mini-CEX: Automatic Evaluation of Large Language Model for
Diagnostic Conversation
- arxiv url: http://arxiv.org/abs/2308.07635v1
- Date: Tue, 15 Aug 2023 08:32:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 13:42:37.165744
- Title: LLM-Mini-CEX: Automatic Evaluation of Large Language Model for
Diagnostic Conversation
- Title(参考訳): LLM-Mini-CEX:診断対話のための大規模言語モデルの自動評価
- Authors: Xiaoming Shi, Jie Xu, Jinru Ding, Jiali Pang, Sichen Liu, Shuqing Luo,
Xingwei Peng, Lu Lu, Haihong Yang, Mingtao Hu, Tong Ruan, Shaoting Zhang
- Abstract要約: 診断効率を向上させるための診断用LSMの開発への関心が高まっている。
統一的かつ包括的な評価基準はなく、医療用LLMの品質と潜在的なリスクを評価することができない。
統一的・包括的評価基準の欠如に対処するため,まずLLM固有のミニCEXと呼ばれる評価基準を確立する。
- 参考スコア(独自算出の注目度): 17.747302303186256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is an increasing interest in developing LLMs for medical diagnosis to
improve diagnosis efficiency. Despite their alluring technological potential,
there is no unified and comprehensive evaluation criterion, leading to the
inability to evaluate the quality and potential risks of medical LLMs, further
hindering the application of LLMs in medical treatment scenarios. Besides,
current evaluations heavily rely on labor-intensive interactions with LLMs to
obtain diagnostic dialogues and human evaluation on the quality of diagnosis
dialogue. To tackle the lack of unified and comprehensive evaluation criterion,
we first initially establish an evaluation criterion, termed LLM-specific
Mini-CEX to assess the diagnostic capabilities of LLMs effectively, based on
original Mini-CEX. To address the labor-intensive interaction problem, we
develop a patient simulator to engage in automatic conversations with LLMs, and
utilize ChatGPT for evaluating diagnosis dialogues automatically. Experimental
results show that the LLM-specific Mini-CEX is adequate and necessary to
evaluate medical diagnosis dialogue. Besides, ChatGPT can replace manual
evaluation on the metrics of humanistic qualities and provides reproducible and
automated comparisons between different LLMs.
- Abstract(参考訳): 診断効率を向上させるための診断用LSMの開発への関心が高まっている。
この技術の可能性は高いが、統一的で総合的な評価基準はなく、医療用llmの品質と潜在的なリスクを評価できず、医療シナリオにおけるllmの適用を妨げている。
また,現在の評価は,LLMとの労働集約的な相互作用に大きく依存しており,診断対話の質に関する人的評価も行われている。
統一的・包括的評価基準の欠如に対処するために,まず最初に,LLM固有のMini-CEXと呼ばれる評価基準を確立し,元のMini-CEXに基づいてLLMの診断能力を効果的に評価する。
労働集約型インタラクション問題に対処するために, llmとの自動対話を行うための患者シミュレータを開発し, chatgptを用いて診断対話を自動的に評価する。
実験の結果, LLM特異的ミニCEXは診断対話の評価に必要であることがわかった。
さらに、ChatGPTは人文的品質の指標を手作業で評価し、異なるLLM間の再現性と自動比較を提供する。
関連論文リスト
- Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Interactive Evaluation and Collaboration of LLMs as Intern
Doctors for Clinical Diagnosis [72.50974375416239]
リアルタイムのインタラクティブな診断環境を構築するために設計されたフレームワークであるAI Hospitalを紹介する。
様々な大規模言語モデル(LLM)は、対話的診断のためのインターン医師として機能する。
我々は,医療部長の監督の下で,反復的な議論と紛争解決プロセスを含む協調的なメカニズムを導入する。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - A Comprehensive Analysis of the Effectiveness of Large Language Models
as Automatic Dialogue Evaluators [46.939611070781794]
大規模言語モデル(LLM)は、人間の裁判官にとって有望な代用であることが示されている。
我々は,最近出現した30個のLLMの多次元評価能力をターンレベルとダイアログレベルの両方で解析した。
また,旋回と対話の両レベルにおいて,様々な逆方向の摂動に対処するLLMの頑健性についても検討した。
論文 参考訳(メタデータ) (2023-12-24T04:50:57Z) - Exploring the Factual Consistency in Dialogue Comprehension of Large Language Models [51.75805497456226]
本研究は,対話要約タスクの助けを借りて,事実整合性の問題に焦点を当てる。
評価の結果,LLMが生成する要約の26.8%が事実整合性を含んでいることがわかった。
LLMの対話理解能力を高めるために,自動構築マルチタスクデータを用いた微調整パラダイムを提案する。
論文 参考訳(メタデータ) (2023-11-13T09:32:12Z) - An Automatic Evaluation Framework for Multi-turn Medical Consultations
Capabilities of Large Language Models [22.409334091186995]
大型言語モデル(LLM)はしばしば幻覚に悩まされ、過度に自信があるが誤った判断を下す。
本稿では,マルチターンコンサルテーションにおける仮想医師としてのLCMの実用能力を評価するための自動評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-05T09:24:48Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy
Evaluation Approach [84.02388020258141]
強化学習におけるオフポリシ評価に基づく人間評価スコア推定のための新しいフレームワークであるENIGMAを提案する。
ENIGMAはいくつかの事前収集された経験データしか必要としないため、評価中にターゲットポリシーとのヒューマンインタラクションは不要である。
実験の結果,ENIGMAは人間の評価スコアと相関して既存手法よりも有意に優れていた。
論文 参考訳(メタデータ) (2021-02-20T03:29:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。