論文の概要: DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice
- arxiv url: http://arxiv.org/abs/2509.23344v1
- Date: Sat, 27 Sep 2025 14:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.174508
- Title: DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice
- Title(参考訳): DentVLM: 総合的歯科診断のためのマルチモーダル・ビジョン・ランゲージ・モデルと臨床応用
- Authors: Zijie Meng, Jin Hao, Xiwei Dai, Yang Feng, Jiaxiang Liu, Bin Feng, Huikai Wu, Xiaotang Gai, Hengchuan Zhu, Tianxiang Hu, Yangyang Wu, Hongxia Xu, Jin Li, Jun Xiao, Xiaoqiang Liu, Joey Tianyi Zhou, Fudong Zhu, Zhihe Zhao, Lunguo Xia, Bing Fang, Jimeng Sun, Jian Wu, Zuozhu Liu,
- Abstract要約: 本稿では,専門レベルの口腔疾患診断のために設計された視覚言語モデルであるDentVLMを紹介する。
このモデルは、36の診断タスクで7つの2D経口画像モダリティを解釈できる。
若年者歯科医師13名(36名中21名)の診断成績を上回り,12名中12名(36名中12名)の診断成績を上回りました。
- 参考スコア(独自算出の注目度): 71.62725911420627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Diagnosing and managing oral diseases necessitate advanced visual interpretation across diverse imaging modalities and integrated information synthesis. While current AI models excel at isolated tasks, they often fall short in addressing the complex, multimodal requirements of comprehensive clinical dental practice. Here we introduce DentVLM, a multimodal vision-language model engineered for expert-level oral disease diagnosis. DentVLM was developed using a comprehensive, large-scale, bilingual dataset of 110,447 images and 2.46 million visual question-answering (VQA) pairs. The model is capable of interpreting seven 2D oral imaging modalities across 36 diagnostic tasks, significantly outperforming leading proprietary and open-source models by 19.6% higher accuracy for oral diseases and 27.9% for malocclusions. In a clinical study involving 25 dentists, evaluating 1,946 patients and encompassing 3,105 QA pairs, DentVLM surpassed the diagnostic performance of 13 junior dentists on 21 of 36 tasks and exceeded that of 12 senior dentists on 12 of 36 tasks. When integrated into a collaborative workflow, DentVLM elevated junior dentists' performance to senior levels and reduced diagnostic time for all practitioners by 15-22%. Furthermore, DentVLM exhibited promising performance across three practical utility scenarios, including home-based dental health management, hospital-based intelligent diagnosis and multi-agent collaborative interaction. These findings establish DentVLM as a robust clinical decision support tool, poised to enhance primary dental care, mitigate provider-patient imbalances, and democratize access to specialized medical expertise within the field of dentistry.
- Abstract(参考訳): 口腔疾患の診断と管理には多様な画像モダリティと統合情報合成の高度な視覚的解釈が必要である。
現在のAIモデルは孤立したタスクで優れているが、総合的な臨床歯科医療の複雑なマルチモーダル要件に対処するには不足することが多い。
本稿では,専門レベルの口腔疾患診断のために開発されたマルチモーダル視覚言語モデルであるDentVLMを紹介する。
DentVLMは、110,447の画像と2,46万の視覚的質問応答(VQA)ペアからなる包括的で大規模なバイリンガルデータセットを使用して開発された。
このモデルは36の診断タスクで7つの2D経口画像モダリティを解釈することができ、主要なプロプライエタリおよびオープンソースモデルよりも19.6%高い精度で、不正咬合では27.9%の精度で優れている。
歯科医師25名, 患者1,946名, QAペア3,105名を対象にした臨床研究では, 36名中21名中13名中13名, 36名中12名中12名以上の診断成績を示した。
共同作業ワークフローに統合されると、デントVLMは中等歯科医師のパフォーマンスを上位レベルに引き上げ、全ての開業医の診断時間を15~22%短縮した。
さらに、デントVLMは、在宅歯科保健管理、病院ベースのインテリジェント診断、複数エージェントの協調的相互作用など、実用的な3つのシナリオにまたがって、有望なパフォーマンスを示した。
以上の結果から,DentVLMはプライマリ・デンタルケアの強化,提供者/患者間の不均衡の緩和,歯科医療分野における専門的専門知識へのアクセスの民主化を図った。
関連論文リスト
- Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:39:08Z) - DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding [18.678007079687706]
歯科領域における大規模言語モデル(LLM)の評価と進歩を目的とした,最初の総合的なベンチマークであるDentureBenchを紹介する。
デンタルベンチは、4つのタスクと16の歯科サブフィールドにまたがる36,597の質問がある英語と中国語の質問回答(QA)ベンチマークであるデンタルQAと、337.35万のトークンを歯科領域適応のためにキュレートした大規模で高品質なコーパスであるデンタルコーパスの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:35:51Z) - DermINO: Hybrid Pretraining for a Versatile Dermatology Foundation Model [92.66916452260553]
DermNIOは皮膚科学の多目的基盤モデルである。
自己教師型学習パラダイムを増強する、新しいハイブリッド事前学習フレームワークが組み込まれている。
さまざまなタスクにおいて、最先端のモデルよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-17T00:41:39Z) - An Agentic System for Rare Disease Diagnosis with Traceable Reasoning [69.46279475491164]
大型言語モデル(LLM)を用いた最初のまれな疾患診断エージェントシステムであるDeepRareを紹介する。
DeepRareは、まれな疾患の診断仮説を分類し、それぞれに透明な推論の連鎖が伴う。
このシステムは2,919の疾患に対して異常な診断性能を示し、1013の疾患に対して100%の精度を達成している。
論文 参考訳(メタデータ) (2025-06-25T13:42:26Z) - MMedAgent-RL: Optimizing Multi-Agent Collaboration for Multimodal Medical Reasoning [63.63542462400175]
医療エージェント間の動的に最適化された協調を可能にする強化学習に基づくマルチエージェントフレームワークMMedAgent-RLを提案する。
具体的には、Qwen2.5-VLに基づく2つのGPエージェントをRLを介して訓練する: トリアージ医師は患者を適切な専門分野に割り当てることを学ぶ一方、主治医はマルチスペシャリストの判断を統合する。
5つのVQAベンチマークの実験では、MMedAgent-RLはオープンソースおよびプロプライエタリなMed-LVLMよりも優れており、人間のような推論パターンも示している。
論文 参考訳(メタデータ) (2025-05-31T13:22:55Z) - MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways [26.013336927642765]
入院経路は包括的患者情報に基づく複雑な臨床診断を必要とする。
3つの臨床薬品を併用した多段階入院経路(MAP)フレームワークを提案する。
LLM HuatuoGPT2-13Bと比較して診断精度は25.10%向上した。
論文 参考訳(メタデータ) (2025-03-17T14:14:28Z) - Specialized curricula for training vision-language models in retinal image analysis [8.167708226285932]
視覚言語モデル(VLM)は画像を自動的に解釈し、その結果をテキストとして要約する。
本研究では, OpenAI の ChatGPT-4o モデルは, 専門職における眼科医の実践に比べ, 明らかに低性能であることを示す。
論文 参考訳(メタデータ) (2024-07-11T11:31:48Z) - Towards Accurate Differential Diagnosis with Large Language Models [37.48155380562073]
LLM(Large Language Models)を利用した対話型インタフェースは、差分診断の側面をアシストし、自動化する新たな機会を提供する。
20人の臨床医が、ニューイングランド・ジャーナル・オブ・メディカル(New England Journal of Medicine)から入手した、302の挑戦的な現実世界の医療事例を評価した。
我々のLSMは,難治性症例の診断的推論と精度を向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-11-30T19:55:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。