論文の概要: OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
- arxiv url: http://arxiv.org/abs/2511.22055v1
- Date: Thu, 27 Nov 2025 03:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.371994
- Title: OralGPT-Omni: A Versatile Dental Multimodal Large Language Model
- Title(参考訳): OralGPT-Omni: 歯科用マルチモーダル大言語モデル
- Authors: Jing Hao, Yuci Liang, Lizhuo Lin, Yuxuan Fan, Wenkai Zhou, Kaixin Guo, Zanting Ye, Yanpeng Sun, Xinyu Zhang, Yanqi Yang, Qiankun Li, Hao Tang, James Kit-Hon Tsoi, Linlin Shen, Kuo Feng Hung,
- Abstract要約: オラルGPT-オムニ (OralGPT-Omni) は, 各種歯科画像モダリティおよび臨床タスクを包括的に分析するための最初の歯科用特殊化MLLMである。
歯科医師の診断的推論を的確に把握するために,臨床に基礎をおくチェーン・オブ・ソート・データセットであるTRACE-CoTを構築した。
MMOral-Uniは歯科画像解析のための最初の統一型マルチモーダルベンチマークである。
- 参考スコア(独自算出の注目度): 44.919874082284686
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) have exhibited immense potential across numerous medical specialties; yet, dentistry remains underexplored, in part due to limited domain-specific data, scarce dental expert annotations, insufficient modality-specific modeling, and challenges in reliability. In this paper, we present OralGPT-Omni, the first dental-specialized MLLM designed for comprehensive and trustworthy analysis across diverse dental imaging modalities and clinical tasks. To explicitly capture dentists' diagnostic reasoning, we construct TRACE-CoT, a clinically grounded chain-of-thought dataset that mirrors dental radiologists' decision-making processes. This reasoning supervision, combined with our proposed four-stage training paradigm, substantially strengthens the model's capacity for dental image understanding and analysis. In parallel, we introduce MMOral-Uni, the first unified multimodal benchmark for dental image analysis. It comprises 2,809 open-ended question-answer pairs spanning five modalities and five tasks, offering a comprehensive evaluation suite to date for MLLMs in digital dentistry. OralGPT-Omni achieves an overall score of 51.84 on the MMOral-Uni benchmark and 45.31 on the MMOral-OPG benchmark, dramatically outperforming the scores of GPT-5. Our work promotes intelligent dentistry and paves the way for future advances in dental image analysis. All code, benchmark, and models will be made publicly available.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、多くの医療専門分野において大きな可能性を秘めているが、一部には、限られたドメイン特化データ、少ない歯科専門家アノテーション、不十分なモダリティ特化モデリング、信頼性の課題がある。
本稿では, 歯科画像の多彩なモダリティと臨床タスクを包括的かつ信頼性の高い分析のために設計された, 最初の歯科特殊化MLLMであるOralGPT-Omniについて紹介する。
歯科医の診断的推論を的確に捉えるために,歯科放射線医の意思決定過程を反映した臨床的根拠の連鎖データセットTRACE-CoTを構築した。
この推論監督と,提案した4段階の訓練パラダイムを組み合わせることで,歯科画像の理解と解析のためのモデルの能力を大幅に強化する。
MMOral-Uniは歯科画像解析のための最初の統一型マルチモーダルベンチマークである。
5つのモダリティと5つのタスクにまたがる2,809のオープンエンド質問応答ペアで構成されており、デジタル歯科におけるMLLMの総合的な評価スイートを提供する。
OralGPT-Omniは、MMOral-Uniベンチマークで51.84点、MMOral-OPGベンチマークで45.31点を達成し、GPT-5のスコアを劇的に上回っている。
我々の研究は、インテリジェントな歯科治療を促進し、歯科画像解析の今後の進歩の道を開く。
すべてのコード、ベンチマーク、モデルは公開されます。
関連論文リスト
- Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology [22.124686092997717]
DentVFMは歯科医療用に設計された視覚基礎モデル(VFM)の最初のファミリーである。
幅広い歯科応用のためのタスク非依存の視覚表現を生成する。
それは印象的な一般知性を示し、多様な歯科作業に対する堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-10-16T10:24:23Z) - DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice [71.62725911420627]
本稿では,専門レベルの口腔疾患診断のために設計された視覚言語モデルであるDentVLMを紹介する。
このモデルは、36の診断タスクで7つの2D経口画像モダリティを解釈できる。
若年者歯科医師13名(36名中21名)の診断成績を上回り,12名中12名(36名中12名)の診断成績を上回りました。
論文 参考訳(メタデータ) (2025-09-27T14:47:37Z) - Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:39:08Z) - DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding [18.678007079687706]
歯科領域における大規模言語モデル(LLM)の評価と進歩を目的とした,最初の総合的なベンチマークであるDentureBenchを紹介する。
デンタルベンチは、4つのタスクと16の歯科サブフィールドにまたがる36,597の質問がある英語と中国語の質問回答(QA)ベンチマークであるデンタルQAと、337.35万のトークンを歯科領域適応のためにキュレートした大規模で高品質なコーパスであるデンタルコーパスの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:35:51Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - ChatGPT for Shaping the Future of Dentistry: The Potential of
Multi-Modal Large Language Model [18.59603757924943]
ChatGPT は OpenAI が開発した GPT-4 (Generative Pretrained Transformer 4) のエレガントで対話的なバリエーションである。
本稿では,歯学におけるLarge Language Models(LLMs)の今後の応用について論じる。
論文 参考訳(メタデータ) (2023-03-23T15:34:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。