論文の概要: Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding
- arxiv url: http://arxiv.org/abs/2305.12031v2
- Date: Thu, 17 Aug 2023 17:19:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 19:46:16.725847
- Title: Clinical Camel: An Open Expert-Level Medical Language Model with
Dialogue-Based Knowledge Encoding
- Title(参考訳): clinical camel:対話型知識エンコーディングを用いたオープンエキスパートレベルの医療言語モデル
- Authors: Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry
B. Rubin, Bo Wang
- Abstract要約: 臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
- 参考スコア(独自算出の注目度): 31.884600238089405
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Clinical Camel, an open large language model (LLM) explicitly
tailored for clinical research. Fine-tuned from LLaMA-2 using QLoRA, Clinical
Camel achieves state-of-the-art performance across medical benchmarks among
openly available medical LLMs. Leveraging efficient single-GPU training,
Clinical Camel surpasses GPT-3.5 in five-shot evaluations on all assessed
benchmarks, including 64.3% on the USMLE Sample Exam (compared to 58.5% for
GPT-3.5), 77.9% on PubMedQA (compared to 60.2%), 60.7% on MedQA (compared to
53.6%), and 54.2% on MedMCQA (compared to 51.0%). In addition to these
benchmarks, Clinical Camel demonstrates its broader capabilities, such as
synthesizing plausible clinical notes. This work introduces dialogue-based
knowledge encoding, a novel method to synthesize conversational data from dense
medical texts. While benchmark results are encouraging, extensive and rigorous
human evaluation across diverse clinical scenarios is imperative to ascertain
safety before implementation. By openly sharing Clinical Camel, we hope to
foster transparent and collaborative research, working towards the safe
integration of LLMs within the healthcare domain. Significant challenges
concerning reliability, bias, and the potential for outdated knowledge persist.
Nonetheless, the transparency provided by an open approach reinforces the
scientific rigor essential for future clinical applications.
- Abstract(参考訳): 臨床研究に適したオープン・大型言語モデル(LLM)であるクリニカル・カメルについて述べる。
QLoRAを用いてLLaMA-2を微調整し,医療用LCMの医療用ベンチマークにおける最先端性能を実現する。
効率的なシングルGPUトレーニングを活用するため、クリニカルキャメルは、USMLEサンプルエクサムで64.3%(GPT-3.5で58.5%)、PubMedQAで77.9%(60.2%)、MedQAで60.7%(53.6%)、MedMCQAで54.2%(51.0%)の5ショット評価でGPT-3.5を上回った。
これらのベンチマークに加えて、クリニカルキャメルはプラウシブルな臨床ノートの合成などの幅広い能力を示している。
本研究は,高密度医用テキストから会話データを合成する新しい手法である対話型知識符号化を導入する。
ベンチマークの結果は奨励的だが、さまざまな臨床シナリオにわたる広範囲で厳密な人間評価は、実施前に安全性を確認するために不可欠である。
臨床ラクダをオープンに共有することで、透明で協力的な研究を促進し、医療領域におけるllmの安全な統合に向けて取り組んでいきたいと考えています。
信頼性、バイアス、時代遅れの知識の可能性に関する重要な課題が続いている。
それでも、オープンアプローチによって提供される透明性は、将来の臨床応用に不可欠な科学的厳格さを強化する。
関連論文リスト
- CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。
このベンチマークの信頼性はいくつかの点で確認されている。
論文 参考訳(メタデータ) (2024-10-04T15:15:36Z) - Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 [0.3999851878220878]
臨床意思決定支援システムを強化するための言語モデル(LLM)は、関心が高まりつつあるトピックである。
幻覚や明確な引用の欠如といった現在の欠点は、急速に成長する臨床環境での使用には信頼性が低い。
本研究では,独自のモデル拡張言語検索システムを組み込んだAvoMDによるAsk Avo由来のソフトウェアを評価する。
論文 参考訳(メタデータ) (2024-09-06T17:53:29Z) - Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。
MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。
MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文 参考訳(メタデータ) (2024-08-22T17:01:34Z) - Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入する。
我々のモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large
Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。
Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。
また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文 参考訳(メタデータ) (2024-02-17T08:04:23Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。
このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。
また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文 参考訳(メタデータ) (2024-01-25T19:57:00Z) - Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。
本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。
10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文 参考訳(メタデータ) (2023-09-14T05:15:01Z) - MedAlign: A Clinician-Generated Dataset for Instruction Following with
Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。
医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。
我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文 参考訳(メタデータ) (2023-08-27T12:24:39Z) - Large Language Models Leverage External Knowledge to Extend Clinical
Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。
我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文 参考訳(メタデータ) (2023-05-17T12:31:26Z) - Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。
本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。
本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文 参考訳(メタデータ) (2022-12-26T14:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。