Fugu-MT 論文翻訳(概要): Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding

論文の概要: Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding

arxiv url: http://arxiv.org/abs/2305.12031v1
Date: Fri, 19 May 2023 23:07:09 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-24 01:17:01.598196
Title: Clinical Camel: An Open-Source Expert-Level Medical Language Model with Dialogue-Based Knowledge Encoding
Title（参考訳）: Clinical Camel: 対話型知識符号化を備えたオープンソースのエキスパートレベル医療言語モデル
Authors: Augustin Toma, Patrick R. Lawler, Jimmy Ba, Rahul G. Krishnan, Barry B. Rubin, Bo Wang
Abstract要約: 大きな言語モデル(LLM)は、医療分野で大きな可能性を秘めているが、データプライバシ、規制コンプライアンス、モデルの安定性に関する懸念は、その普及を妨げている。対話型知識を提案する。 (DBKE)モデルは、暗黙の知識ベースをモデル化し、会話のリコールに備え、会話能力を増強する。本稿では、DBKEの有効性を示すために、オープンソースで医療に焦点を当てた会話モデルであるクリニカル・カメルについて紹介する。
参考スコア（独自算出の注目度）: 26.614885930491905
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large Language Models (LLMs) present immense potential in the medical field, yet concerns over data privacy, regulatory compliance, and model stability restrict their widespread adoption. Although the distillation of high-performing closed-source LLMs has proven effective for general tasks, their application in healthcare is limited due to reduced domain knowledge and remnants of alignment behavior hindering clinical tasks. To address these challenges, we propose Dialogue-Based Knowledge Encoding (DBKE). DBKE enhances models' implicit knowledge base and primes them for conversational recall, augmenting their conversational capabilities and enabling a soft alignment for subsequent use cases. By transforming dense academic source text into synthetic dialogue, DBKE broadens the model's knowledge base and enables a soft alignment that guides downstream behaviours. We present Clinical Camel, an open-source, healthcare-focused conversational model, to showcase the effectiveness of DBKE. Clinical Camel outperforms GPT-3.5 on the United States Medical Licensing Examination (USMLE) Step 1 and Step 3 with scores of 53.2 % and 58.2 %, respectively, compared to GPT-3.5's scores of 36.1 % and 55.7 %. Clinical Camel adeptly handles multi-stage clinical case problems, provides adaptive counseling, and generates clinical notes. However, it is prone to hallucinations, which pose a significant obstacle in safety-critical settings. The performance of Clinical Camel underscores the importance of continued research and development of open-source models for the safe and effective integration of LLMs in healthcare settings.
Abstract（参考訳）: 大規模言語モデル(LLM)は医療分野で大きな可能性を秘めているが、データプライバシ、規制コンプライアンス、モデルの安定性に関する懸念は広く採用されている。高性能クローズドソースLCMの蒸留は一般的な作業に有効であることが証明されているが、その医療への応用は、ドメイン知識の減少と臨床作業を妨げるアライメント行動の残余によって制限されている。これらの課題に対処するために,対話型知識符号化(DBKE)を提案する。 DBKEはモデルの暗黙の知識ベースを強化し、会話のリコールに備え、会話能力を強化し、その後のユースケースのソフトアライメントを可能にする。密度の高い学術資料を合成対話に変換することで、DBKEはモデルの知識基盤を広げ、下流の振る舞いを導くソフトアライメントを可能にする。 dbkeの有効性を示すために,医療に焦点を絞ったオープンソースの会話モデルである clinical camel を提案する。臨床カメラは、米国医学ライセンス試験(USMLE)ステップ1とステップ3でそれぞれ53.2 %、58.2 %で、GPT-3.5のスコアは36.1 %、55.7 %である。臨床ラクダは、しばしば多段階の臨床ケースの問題に対処し、適応的なカウンセリングを提供し、臨床ノートを生成する。しかし、幻覚を起こす傾向があり、安全上重要な設定において大きな障害となる。臨床ラクダのパフォーマンスは、医療現場におけるllmの安全かつ効果的な統合のためのオープンソースモデルの継続的な研究と開発の重要性を強調している。

関連論文リスト

A Novel Evaluation Benchmark for Medical LLMs: Illuminating Safety and Effectiveness in Clinical Domains [15.73821689524201]
大言語モデル (LLMs) は臨床決定支援において有望であるが、安全性評価と有効性検証において大きな課題に直面している。臨床専門家のコンセンサスに基づく多次元フレームワークであるCSEDBを開発した。 13名の専門医が, 現実のシナリオをシミュレートする26の臨床部門にまたがって, 2,069件のオープンエンドQ&A項目を作成した。
論文参考訳（メタデータ） (2025-07-31T12:10:00Z)
Trustworthy AI for Medicine: Continuous Hallucination Detection and Elimination with CHECK [1.3638020767676653]
大規模言語モデル(LLMs)は医療において有望であるが、幻覚は臨床利用にとって大きな障壁である。構造化された臨床データベースを統合して幻覚を検出する継続的学習フレームワークであるCHECKについて述べる。
論文参考訳（メタデータ） (2025-06-10T17:12:28Z)
MedHELM: Holistic Evaluation of Large Language Models for Medical Tasks [47.486705282473984]
大規模言語モデル(LLM)は、医学試験においてほぼ完璧なスコアを得る。これらの評価は、実際の臨床実践の複雑さと多様性を不十分に反映している。 MedHELMは,医療業務におけるLCMの性能を評価するための評価フレームワークである。
論文参考訳（メタデータ） (2025-05-26T22:55:49Z)
Clinical knowledge in LLMs does not translate to human interactions [2.523178830945285]
大規模言語モデル (LLMs) が, 基礎疾患を特定し, 10 つの医療シナリオにおいて行動経路を選択する上で, 一般市民を支援することができるかどうかを検証した。 LLMは単独でテストを行い、94.9%のケースの条件を正確に特定し、平均56.3%のケースで配置した。同じLSMを使用する参加者は34.5%未満のケースで関連する条件を特定し、44.2%未満で配置した。
論文参考訳（メタデータ） (2025-04-26T13:32:49Z)
CliMedBench: A Large-Scale Chinese Benchmark for Evaluating Medical Large Language Models in Clinical Scenarios [50.032101237019205]
CliMedBenchは、14のエキスパートによるコア臨床シナリオを備えた総合的なベンチマークである。このベンチマークの信頼性はいくつかの点で確認されている。
論文参考訳（メタデータ） (2024-10-04T15:15:36Z)
Evaluating the Impact of a Specialized LLM on Physician Experience in Clinical Decision Support: A Comparison of Ask Avo and ChatGPT-4 [0.3999851878220878]
臨床意思決定支援システムを強化するための言語モデル(LLM)は、関心が高まりつつあるトピックである。幻覚や明確な引用の欠如といった現在の欠点は、急速に成長する臨床環境での使用には信頼性が低い。本研究では,独自のモデル拡張言語検索システムを組み込んだAvoMDによるAsk Avo由来のソフトウェアを評価する。
論文参考訳（メタデータ） (2024-09-06T17:53:29Z)
Towards Evaluating and Building Versatile Large Language Models for Medicine [57.49547766838095]
MedS-Benchは大規模言語モデル(LLM)の性能を臨床的に評価するためのベンチマークである。 MedS-Benchは、臨床報告の要約、治療勧告、診断、名前付きエンティティ認識、医療概念説明を含む、11のハイレベルな臨床タスクにまたがる。 MedS-Insは58の医療指向言語コーパスで構成され、112のタスクで1350万のサンプルを収集している。
論文参考訳（メタデータ） (2024-08-22T17:01:34Z)
Adapting Open-Source Large Language Models for Cost-Effective, Expert-Level Clinical Note Generation with On-Policy Reinforcement Learning [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。教師モデルとしてGemini 1.0 Proを用いて、政治強化学習を行うための新しいアプローチであるDistillDirectを導入する。我々のモデルであるLLaMA-Clinicは、医師が作成したものと同等の品質の臨床メモを生成することができる。
論文参考訳（メタデータ） (2024-04-25T15:34:53Z)
Asclepius: A Spectrum Evaluation Benchmark for Medical Multi-Modal Large Language Models [59.60384461302662]
医療マルチモーダル大言語モデル(Med-MLLM)を評価するための新しいベンチマークであるAsclepiusを紹介する。 Asclepiusは、異なる医療専門性と異なる診断能力の観点から、モデル能力の厳密かつ包括的に評価する。また、6つのMed-MLLMの詳細な分析を行い、5人の専門家と比較した。
論文参考訳（メタデータ） (2024-02-17T08:04:23Z)
AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文参考訳（メタデータ） (2024-02-15T06:46:48Z)
LongHealth: A Question Answering Benchmark with Long Clinical Documents [36.05587855811346]
各種疾患20例を対象とし,LongHealthベンチマークを報告する。このベンチマークは、情報抽出、否定、ソートという3つのカテゴリで400の多重選択の質問でLSMに挑戦する。また,OpenAIのプロプライエタリかつコスト効率のよいGPT-3.5 Turboも比較検討した。
論文参考訳（メタデータ） (2024-01-25T19:57:00Z)
Adapted Large Language Models Can Outperform Medical Experts in Clinical Text Summarization [8.456700096020601]
大規模言語モデル (LLM) は自然言語処理 (NLP) において有望であるが, 様々な臨床要約タスクにおける有効性は証明されていない。本研究では,4つの臨床要約課題にまたがる8つのLCMに適応法を適用した。 10名の医師による臨床読影者を対象に, 要約, 完全性, 正当性, 簡潔性を評価した。ほとんどの場合, ベスト適応LSMの要約は, 医用専門家の要約と比べ, 同等(45%), 上等(36%)である。
論文参考訳（メタデータ） (2023-09-14T05:15:01Z)
MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records [60.35217378132709]
大型言語モデル(LLM)は、人間レベルの流布で自然言語の指示に従うことができる。医療のための現実的なテキスト生成タスクにおけるLCMの評価は依然として困難である。我々は、EHRデータのための983の自然言語命令のベンチマークデータセットであるMedAlignを紹介する。
論文参考訳（メタデータ） (2023-08-27T12:24:39Z)
Large Language Models Leverage External Knowledge to Extend Clinical Insight Beyond Language Boundaries [48.48630043740588]
ChatGPTやMed-PaLMのような大規模言語モデル(LLM)は、様々な質問応答タスクに優れています。我々は,その性能を高めるために,新しい文脈内学習フレームワークを開発した。
論文参考訳（メタデータ） (2023-05-17T12:31:26Z)
Large Language Models for Healthcare Data Augmentation: An Example on Patient-Trial Matching [49.78442796596806]
患者-心電図マッチング(LLM-PTM)のための革新的なプライバシ対応データ拡張手法を提案する。本実験では, LLM-PTM法を用いて平均性能を7.32%向上させ, 新しいデータへの一般化性を12.12%向上させた。
論文参考訳（メタデータ） (2023-03-24T03:14:00Z)
Large Language Models Encode Clinical Knowledge [21.630872464930587]
大規模言語モデル(LLM)は、自然言語の理解と生成において印象的な能力を示している。本稿では, 現実性, 正確性, 潜在的害, バイアスを含む複数の軸に沿ったモデル回答の人為的評価のための枠組みを提案する。本研究は,モデル尺度とインストラクション・インシデント・チューニングにより,理解,知識の想起,医学的推論が向上することを示す。
論文参考訳（メタデータ） (2022-12-26T14:28:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。