論文の概要: DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
- arxiv url: http://arxiv.org/abs/2512.11558v1
- Date: Fri, 12 Dec 2025 13:42:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 15:48:11.785803
- Title: DentalGPT: Incentivizing Multimodal Complex Reasoning in Dentistry
- Title(参考訳): 歯科用GPT : 歯科におけるマルチモーダルコンプレックス推論のインセンティブ
- Authors: Zhenyang Cai, Jiaming Zhang, Junjie Zhao, Ziyi Zeng, Yanchao Li, Jingyi Liang, Junying Chen, Yunjin Yang, Jiajun You, Shuzhi Deng, Tongfei Wang, Wanting Chen, Chunxiu Hao, Ruiqi Xie, Zhenwei Wen, Xiangyi Feng, Zou Ting, Jin Zou Lin, Jianquan Li, Guangjun Yu, Liangyi Chen, Junwen Wang, Shan Jiang, Benyou Wang,
- Abstract要約: 現在のマルチモーダル大言語モデル(MLLM)は、細粒度の歯の視覚的詳細を捉えるのに苦労している。
高品質なドメイン知識注入と強化学習により開発された歯科用MLLMである歯科用GPTについて述べる。
- 参考スコア(独自算出の注目度): 28.389946455559713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable interpretation of multimodal data in dentistry is essential for automated oral healthcare, yet current multimodal large language models (MLLMs) struggle to capture fine-grained dental visual details and lack sufficient reasoning ability for precise diagnosis. To address these limitations, we present DentalGPT, a specialized dental MLLM developed through high-quality domain knowledge injection and reinforcement learning. Specifically, the largest annotated multimodal dataset for dentistry to date was constructed by aggregating over 120k dental images paired with detailed descriptions that highlight diagnostically relevant visual features, making it the multimodal dataset with the most extensive collection of dental images to date. Training on this dataset significantly enhances the MLLM's visual understanding of dental conditions, while the subsequent reinforcement learning stage further strengthens its capability for multimodal complex reasoning. Comprehensive evaluations on intraoral and panoramic benchmarks, along with dental subsets of medical VQA benchmarks, show that DentalGPT achieves superior performance in disease classification and dental VQA tasks, outperforming many state-of-the-art MLLMs despite having only 7B parameters. These results demonstrate that high-quality dental data combined with staged adaptation provides an effective pathway for building capable and domain-specialized dental MLLMs.
- Abstract(参考訳): 歯科医療におけるマルチモーダルデータの信頼性の高い解釈は, 歯科医療において不可欠であるが, 現在のマルチモーダル大言語モデル(MLLM)は, きめ細かな視覚的詳細を捉えるのに苦慮し, 正確な診断に十分な推論能力が欠如している。
これらの制約に対処するために,高品質なドメイン知識注入と強化学習によって開発された歯科用MLLMの歯科用GPTを提案する。
具体的には,120k以上の歯科画像と,診断に関連のある視覚的特徴を示す詳細な記述を組み合わせて集約し,これまでで最も広範な歯科画像の収集が可能なマルチモーダルデータセットを構築した。
このデータセットのトレーニングは、MLLMの視覚的状態の理解を著しく向上させ、その後の強化学習段階は、マルチモーダル複雑推論の能力をさらに強化する。
口腔内およびパノラマベンチマークの総合的な評価は, 歯科用VQAベンチマークの歯科用サブセットとともに, 歯科用GPTは疾患分類や歯科用VQAタスクにおいて優れた性能を示し, 7Bパラメータしか持たないにもかかわらず, 多くの最先端MLLMよりも優れていた。
以上の結果から, 高品質な歯科用データと段階的適応が組み合わさって, 有能な歯科用MLLMとドメイン特化歯科用MLLMの製作に有効な経路であることが示唆された。
関連論文リスト
- OralGPT-Omni: A Versatile Dental Multimodal Large Language Model [44.919874082284686]
オラルGPT-オムニ (OralGPT-Omni) は, 各種歯科画像モダリティおよび臨床タスクを包括的に分析するための最初の歯科用特殊化MLLMである。
歯科医師の診断的推論を的確に把握するために,臨床に基礎をおくチェーン・オブ・ソート・データセットであるTRACE-CoTを構築した。
MMOral-Uniは歯科画像解析のための最初の統一型マルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-11-27T03:21:20Z) - Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology [22.124686092997717]
DentVFMは歯科医療用に設計された視覚基礎モデル(VFM)の最初のファミリーである。
幅広い歯科応用のためのタスク非依存の視覚表現を生成する。
それは印象的な一般知性を示し、多様な歯科作業に対する堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-10-16T10:24:23Z) - DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice [71.62725911420627]
本稿では,専門レベルの口腔疾患診断のために設計された視覚言語モデルであるDentVLMを紹介する。
このモデルは、36の診断タスクで7つの2D経口画像モダリティを解釈できる。
若年者歯科医師13名(36名中21名)の診断成績を上回り,12名中12名(36名中12名)の診断成績を上回りました。
論文 参考訳(メタデータ) (2025-09-27T14:47:37Z) - Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:39:08Z) - DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding [18.678007079687706]
歯科領域における大規模言語モデル(LLM)の評価と進歩を目的とした,最初の総合的なベンチマークであるDentureBenchを紹介する。
デンタルベンチは、4つのタスクと16の歯科サブフィールドにまたがる36,597の質問がある英語と中国語の質問回答(QA)ベンチマークであるデンタルQAと、337.35万のトークンを歯科領域適応のためにキュレートした大規模で高品質なコーパスであるデンタルコーパスの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:35:51Z) - EyecareGPT: Boosting Comprehensive Ophthalmology Understanding with Tailored Dataset, Benchmark and Model [51.66031028717933]
Med-LVLM(Med-LVLM)は、医療において重要な可能性を示す。
現在、知的眼科診断は、(i)データ、(ii)ベンチマーク、(iii)モデルという3つの大きな課題に直面している。
我々は、前述の3つの課題に対処するEyecare Kitを提案する。
論文 参考訳(メタデータ) (2025-04-18T12:09:15Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ChatGPT for Shaping the Future of Dentistry: The Potential of
Multi-Modal Large Language Model [18.59603757924943]
ChatGPT は OpenAI が開発した GPT-4 (Generative Pretrained Transformer 4) のエレガントで対話的なバリエーションである。
本稿では,歯学におけるLarge Language Models(LLMs)の今後の応用について論じる。
論文 参考訳(メタデータ) (2023-03-23T15:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。