論文の概要: DeepSeek performs better than other Large Language Models in Dental Cases
- arxiv url: http://arxiv.org/abs/2509.02036v1
- Date: Tue, 02 Sep 2025 07:26:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 15:17:03.942852
- Title: DeepSeek performs better than other Large Language Models in Dental Cases
- Title(参考訳): DeepSeekは歯科における他の大規模言語モデルよりも優れている
- Authors: Hexian Zhang, Xinyu Yan, Yanqi Yang, Lijian Jin, Ping Yang, Junwen Wang,
- Abstract要約: 大規模言語モデル (LLM) は医療において変革の可能性を秘めているが, 縦断的な患者の物語を解釈する能力はいまだ不十分である。
本研究は, 長手型歯科症例のヴィグネット解析能力について, 最先端の4つのLSMについて検討した。
DeepSeekがトップパフォーマーとして登場し、優れた忠実さと高い専門家評価を示した。
- 参考スコア(独自算出の注目度): 3.7838709303967293
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) hold transformative potential in healthcare, yet their capacity to interpret longitudinal patient narratives remains inadequately explored. Dentistry, with its rich repository of structured clinical data, presents a unique opportunity to rigorously assess LLMs' reasoning abilities. While several commercial LLMs already exist, DeepSeek, a model that gained significant attention earlier this year, has also joined the competition. This study evaluated four state-of-the-art LLMs (GPT-4o, Gemini 2.0 Flash, Copilot, and DeepSeek V3) on their ability to analyze longitudinal dental case vignettes through open-ended clinical tasks. Using 34 standardized longitudinal periodontal cases (comprising 258 question-answer pairs), we assessed model performance via automated metrics and blinded evaluations by licensed dentists. DeepSeek emerged as the top performer, demonstrating superior faithfulness (median score = 0.528 vs. 0.367-0.457) and higher expert ratings (median = 4.5/5 vs. 4.0/5), without significantly compromising readability. Our study positions DeepSeek as the leading LLM for case analysis, endorses its integration as an adjunct tool in both medical education and research, and highlights its potential as a domain-specific agent.
- Abstract(参考訳): 大規模言語モデル (LLM) は医療において変革の可能性を秘めているが, 縦断的な患者の物語を解釈する能力はいまだ不十分である。
歯科は、構造化された臨床データの豊富なリポジトリを持ち、LSMの推論能力を厳格に評価するユニークな機会を提供する。
すでにいくつかの商用LCMが存在しているが、今年初めに大きな注目を集めたDeepSeekも参加している。
本研究は,4つの最先端LCM (GPT-4o, Gemini 2.0 Flash, Copilot, DeepSeek V3) について, 歯科症例の経時的ヴィグネット解析能力について検討した。
標準縦断歯周症例34例(質問応答ペア258例)を用いて, 自動測定, 盲点評価を行った。
DeepSeekがトップパフォーマーとして登場し、優れた忠実さ(中間スコア=0.528対0.367-0.457)と高い専門家評価(中間スコア=4.5/5対.4.0/5)を示した。
本研究は、DeepSeekをケース分析の先駆的LLMとして位置づけ、医学教育と研究の両方において補助的ツールとしての統合を支持し、ドメイン固有のエージェントとしての可能性を強調した。
関連論文リスト
- Clinical Validation of Medical-based Large Language Model Chatbots on Ophthalmic Patient Queries with LLM-based Evaluation [1.6570903210287165]
ドメイン固有の大きな言語モデルは、眼科における患者教育、トリアージ、臨床決定を支援するために、ますます使われてきている。
本研究は,眼科関連患者の質問に対する回答として,Meerkat-7B,BioMistral-7B,OpenBioLLM-8B,MedLLaMA3-v20の4つの小症例について検討した。
全体として、LLMは安全な眼科的質問応答の可能性を示したが、そのギャップは臨床深度とコンセンサスに留まった。
論文 参考訳(メタデータ) (2026-02-05T07:00:20Z) - DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。
これらのギャップに対処するための包括的なフレームワークを提示します。
まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。
第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文 参考訳(メタデータ) (2026-01-05T07:55:36Z) - Generalist Large Language Models Outperform Clinical Tools on Medical Benchmarks [1.2773749417703923]
ジェネラリストモデルは一貫して臨床ツールより優れていた。
OpenEvidenceとUpToDate Expert AIは、完全性、コミュニケーション品質、コンテキスト認識、システムベースの安全性推論の欠陥を実証した。
論文 参考訳(メタデータ) (2025-12-01T02:14:43Z) - TemMed-Bench: Evaluating Temporal Medical Image Reasoning in Vision-Language Models [54.48710348910535]
既存の医学推論ベンチマークは、主に1回の訪問からの画像に基づいて患者の状態を分析することに焦点を当てている。
臨床訪問における患者の状態の変化を分析するための最初のベンチマークであるTemMed-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-29T17:51:26Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Large Language Models for Medical OSCE Assessment: A Novel Approach to Transcript Analysis [0.0]
テキサス大学サウスウェスタン医療センター(UTSW)における2,027件のビデオ録画OSCE検査について検討した。
本研究は, 学生の要約作業において, LLMに基づく様々な手法による評価を行い, 評価書に基づいて評価を行った。
以上の結果から, GPT-4のようなフロンティアLLMモデルでは, 人間の学級とのアライメントが顕著であった。
論文 参考訳(メタデータ) (2024-10-11T19:16:03Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Specialized curricula for training vision-language models in retinal image analysis [8.167708226285932]
視覚言語モデル(VLM)は画像を自動的に解釈し、その結果をテキストとして要約する。
本研究では, OpenAI の ChatGPT-4o モデルは, 専門職における眼科医の実践に比べ, 明らかに低性能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T11:31:48Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Towards Adapting Open-Source Large Language Models for Expert-Level Clinical Note Generation [19.08691249610632]
本研究では,オープンソースのLLaMA-213億パラメータモデルに対する包括的ドメイン・タスク特化プロセスを提案する。
我々のプロセスには、AIと人間のフィードバックの両方から、継続的な事前トレーニング、教師付き微調整、強化学習が組み込まれています。
得られたLLaMA-Clinicは,医師が作成したものと同等の精度で臨床記録を作成できる。
論文 参考訳(メタデータ) (2024-04-25T15:34:53Z) - Large Language Models in Medical Term Classification and Unexpected
Misalignment Between Response and Reasoning [28.355000184014084]
本研究は, 軽度認知障害 (MCI) 患者を退院サマリーから識別する, 最先端の大規模言語モデル (LLMs) の有効性を評価するものである。
データは、モデルの微調整と評価のために、トレーニング、検証、テストセットに7:2:1の比率で分割された。
FalconやLLaMA 2のようなオープンソースのモデルは高い精度を達成したが、説明的推論に欠けていた。
論文 参考訳(メタデータ) (2023-12-19T17:36:48Z) - Self-Verification Improves Few-Shot Clinical Information Extraction [73.6905567014859]
大規模言語モデル (LLMs) は、数発のテキスト内学習を通じて臨床キュレーションを加速する可能性を示している。
正確性や解釈可能性に関する問題、特に健康のようなミッションクリティカルな領域ではまだ苦戦している。
本稿では,自己検証を用いた汎用的な緩和フレームワークについて検討する。このフレームワークはLLMを利用して,自己抽出のための証明を提供し,その出力をチェックする。
論文 参考訳(メタデータ) (2023-05-30T22:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。