論文の概要: LLM-Based Data Generation and Clinical Skills Evaluation for Low-Resource French OSCEs
- arxiv url: http://arxiv.org/abs/2604.08126v1
- Date: Thu, 09 Apr 2026 11:46:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.895376
- Title: LLM-Based Data Generation and Clinical Skills Evaluation for Low-Resource French OSCEs
- Title(参考訳): 低リソースフランスのOSCEにおけるLCMデータ生成と臨床スキル評価
- Authors: Tian Huang, Tom Bourgeade, Irina Illina,
- Abstract要約: フランスでは、トレーニングセッションの組織は人的および論理的な制約によって制限される。
自然言語処理(NLP)と大規模言語モデル(LLM)の最近の進歩は、医療面接を自動的に評価する機会を提供する。
そこで我々は,シナリオ特異的評価基準でガイドされた総合的医師・患者面接書を作成できる制御パイプラインを提案する。
- 参考スコア(独自算出の注目度): 7.636286614517115
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Objective Structured Clinical Examinations (OSCEs) are the standard method for assessing medical students' clinical and communication skills through structured patient interviews. In France, however, the organization of training sessions is limited by human and logistical constraints, restricting students' access to repeated practice and structured feedback. Recent advances in Natural Language Processing (NLP) and Large Language Models (LLMs) now offer the opportunity to automatically evaluate such medical interviews, thereby alleviating the need for human examiners during training. Yet, real French OSCE annotated transcripts remain extremely scarce, limiting reproducible research and reliable benchmarking. To address these challenges, we investigate the use of LLMs for both generating and evaluating French OSCE dialogues in a low-resource context. We introduce a controlled pipeline that produces synthetic doctor-patient interview transcripts guided by scenario-specific evaluation criteria, combining ideal and perturbed performances to simulate varying student skill levels. The resulting dialogues are automatically silver-labeled through an LLM-assisted framework supporting adjustable evaluation strictness. Benchmarking multiple open-source and proprietary LLMs shows that mid-size models ($\le$32B parameters) achieve accuracies comparable to GPT-4o ($\sim$90\%) on synthetic data, highlighting the feasibility of locally deployable, privacy-preserving evaluation systems for medical education.
- Abstract(参考訳): 客観的構造化臨床検査(英語: Objective Structured Clinical Examinations、OSCE)は、構造化された患者インタビューを通じて、医学生の臨床・コミュニケーションスキルを評価するための標準的な方法である。
しかしフランスでは、トレーニングセッションの組織化は人的および論理的な制約によって制限されており、学生が繰り返し練習や構造化されたフィードバックにアクセスできることを制限している。
自然言語処理(NLP)やLarge Language Models(LLMs)の最近の進歩は、このような医療面接を自動評価する機会を提供し、訓練中の人間の検査者の必要性を軽減する。
しかし、実際のフランスのOSCE注釈書は、再現可能な研究と信頼性のあるベンチマークを制限し、非常に少ないままである。
これらの課題に対処するために、低リソース環境下でのフランス語OSCE対話の生成と評価にLLMを使うことを検討する。
本稿では, 学生のスキルレベルをシミュレートするために, 理想と摂動パフォーマンスを組み合わせた, シナリオ別評価基準で指導された総合的医師・患者面接書を生成する制御パイプラインを提案する。
結果の対話は、調整可能な評価厳密性をサポートするLLM支援フレームワークを通じて自動的に銀ラベルされる。
複数のオープンソースおよびプロプライエタリなLCMのベンチマークによると、中規模のモデル(32Bパラメータ)が合成データ上でGPT-4o(90\%)に匹敵する精度を実現し、ローカルにデプロイ可能で、プライバシ保護された医療教育評価システムの実現可能性を強調している。
関連論文リスト
- A Federated and Parameter-Efficient Framework for Large Language Model Training in Medicine [59.78991974851707]
大規模言語モデル(LLM)は、質問応答や診断など、医療ベンチマークにおいて強力なパフォーマンスを示している。
ほとんどの医療用LDMは、異種システムの一般化性と安全性の制限に直面している単一の機関のデータに基づいて訓練されている。
本稿では, LLMを医療応用に適用するためのモデルに依存しない, パラメータ効率のよいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T18:48:21Z) - ClinDEF: A Dynamic Evaluation Framework for Large Language Models in Clinical Reasoning [58.01333341218153]
ClinDEF(ClinDEF)は, LLMにおける臨床推論をシミュレートされた診断対話を用いて評価する動的フレームワークである。
本手法は, 患者を発症し, LLMをベースとした医師と自動患者エージェントとのマルチターンインタラクションを容易にする。
実験により、ClinDEFは最先端のLSMにおいて重要な臨床推論ギャップを効果的に露呈することが示された。
論文 参考訳(メタデータ) (2025-12-29T12:58:58Z) - TRUST: An LLM-Based Dialogue System for Trauma Understanding and Structured Assessments [8.618945530676614]
本研究は,臨床症状を再現するLLMを用いた対話システムを開発することにより,メンタルヘルスアクセシビリティのギャップを埋めることを目的とする。
我々は、PTSDの正式な診断および評価を行うことができる協調LLMモジュールのフレームワークであるTRUSTを紹介する。
臨床医による時間と費用のかかる手動テストを置き換えるために,実生活の面接書に基づく患者シミュレーション手法を開発した。
論文 参考訳(メタデータ) (2025-04-30T17:58:06Z) - Med-CoDE: Medical Critique based Disagreement Evaluation Framework [72.42301910238861]
医学的文脈における大きな言語モデル(LLM)の信頼性と精度は依然として重要な懸念点である。
現在の評価手法はロバスト性に欠けることが多く、LLMの性能を総合的に評価することができない。
我々は,これらの課題に対処するために,医療用LCMの特別設計評価フレームワークであるMed-CoDEを提案する。
論文 参考訳(メタデータ) (2025-04-21T16:51:11Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - PALLM: Evaluating and Enhancing PALLiative Care Conversations with Large Language Models [10.258261180305439]
大規模言語モデル(LLM)は、複雑なコミュニケーションメトリクスを評価するための新しいアプローチを提供する。
LLMは受動的センシングシステムとジャスト・イン・タイム・イン・タイム・イン・イン・介入システムとの統合を通じて、分野を前進させる可能性を提供する。
本研究は, 言語, 文脈内学習, 推論能力を活用した緩和ケアコミュニケーションの質評価手法としてLLMについて検討する。
論文 参考訳(メタデータ) (2024-09-23T16:39:12Z) - Towards Automatic Evaluation for LLMs' Clinical Capabilities: Metric, Data, and Algorithm [15.627870862369784]
大規模言語モデル (LLMs) は, 臨床診断の効率向上への関心が高まっている。
臨床サービス提供におけるLCMの能力を評価するための自動評価パラダイムを提案する。
論文 参考訳(メタデータ) (2024-03-25T06:17:54Z) - Automatic Interactive Evaluation for Large Language Models with State Aware Patient Simulator [21.60103376506254]
大きな言語モデル(LLM)は、人間の相互作用において顕著な熟練性を示している。
本稿では,SAPS(State-Aware patient Simulator)とAIE(Automated Interactive Evaluation)フレームワークを紹介する。
AIEとSAPSは、多ターン医師-患者シミュレーションを通じてLCMを評価するための動的で現実的なプラットフォームを提供する。
論文 参考訳(メタデータ) (2024-03-13T13:04:58Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text Summaries [56.31117605097345]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。