論文の概要: DeepSeek performs better than other Large Language Models in Dental Cases
- arxiv url: http://arxiv.org/abs/2509.02036v1
- Date: Tue, 02 Sep 2025 07:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.942852
- Title: DeepSeek performs better than other Large Language Models in Dental Cases
- Title(参考訳): DeepSeekは歯科における他の大規模言語モデルよりも優れている
- Authors: Hexian Zhang, Xinyu Yan, Yanqi Yang, Lijian Jin, Ping Yang, Junwen Wang,
- Abstract要約: 大規模言語モデル (LLM) は医療において変革の可能性を秘めているが, 縦断的な患者の物語を解釈する能力はいまだ不十分である。
本研究は, 長手型歯科症例のヴィグネット解析能力について, 最先端の4つのLSMについて検討した。
DeepSeekがトップパフォーマーとして登場し、優れた忠実さと高い専門家評価を示した。
- 参考スコア(独自算出の注目度): 3.7838709303967293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) hold transformative potential in healthcare, yet their capacity to interpret longitudinal patient narratives remains inadequately explored. Dentistry, with its rich repository of structured clinical data, presents a unique opportunity to rigorously assess LLMs' reasoning abilities. While several commercial LLMs already exist, DeepSeek, a model that gained significant attention earlier this year, has also joined the competition. This study evaluated four state-of-the-art LLMs (GPT-4o, Gemini 2.0 Flash, Copilot, and DeepSeek V3) on their ability to analyze longitudinal dental case vignettes through open-ended clinical tasks. Using 34 standardized longitudinal periodontal cases (comprising 258 question-answer pairs), we assessed model performance via automated metrics and blinded evaluations by licensed dentists. DeepSeek emerged as the top performer, demonstrating superior faithfulness (median score = 0.528 vs. 0.367-0.457) and higher expert ratings (median = 4.5/5 vs. 4.0/5), without significantly compromising readability. Our study positions DeepSeek as the leading LLM for case analysis, endorses its integration as an adjunct tool in both medical education and research, and highlights its potential as a domain-specific agent.
- Abstract(参考訳): 大規模言語モデル (LLM) は医療において変革の可能性を秘めているが, 縦断的な患者の物語を解釈する能力はいまだ不十分である。
歯科は、構造化された臨床データの豊富なリポジトリを持ち、LSMの推論能力を厳格に評価するユニークな機会を提供する。
すでにいくつかの商用LCMが存在しているが、今年初めに大きな注目を集めたDeepSeekも参加している。
本研究は,4つの最先端LCM (GPT-4o, Gemini 2.0 Flash, Copilot, DeepSeek V3) について, 歯科症例の経時的ヴィグネット解析能力について検討した。
標準縦断歯周症例34例(質問応答ペア258例)を用いて, 自動測定, 盲点評価を行った。
DeepSeekがトップパフォーマーとして登場し、優れた忠実さ(中間スコア=0.528対0.367-0.457)と高い専門家評価(中間スコア=4.5/5対.4.0/5)を示した。
本研究は、DeepSeekをケース分析の先駆的LLMとして位置づけ、医学教育と研究の両方において補助的ツールとしての統合を支持し、ドメイン固有のエージェントとしての可能性を強調した。
関連論文リスト
- Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis [0.0]
テキサス大学サウスウェスタン医療センター(UTSW)における2,027件のビデオ録画OSCE検査について検討した。
本研究は, 学生の要約作業において, LLMに基づく様々な手法による評価を行い, 評価書に基づいて評価を行った。
以上の結果から, GPT-4のようなフロンティアLLMモデルでは, 人間の学級とのアライメントが顕著であった。
論文 参考訳(メタデータ) (2024-10-11T19:16:03Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。