論文の概要: Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
- arxiv url: http://arxiv.org/abs/2509.09254v1
- Date: Thu, 11 Sep 2025 08:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.297976
- Title: Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis
- Title(参考訳): より良い歯科用AIを目指して : パノラマX線分析のためのマルチモーダルベンチマークとインストラクションデータセット
- Authors: Jing Hao, Yuxuan Fan, Yanpeng Sun, Kaixin Guo, Lizhuo Lin, Jinrong Yang, Qi Yong H. Ai, Lun M. Wong, Hao Tang, Kuo Feng Hung,
- Abstract要約: 我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
- 参考スコア(独自算出の注目度): 16.403842140593706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in large vision-language models (LVLMs) have demonstrated strong performance on general-purpose medical tasks. However, their effectiveness in specialized domains such as dentistry remains underexplored. In particular, panoramic X-rays, a widely used imaging modality in oral radiology, pose interpretative challenges due to dense anatomical structures and subtle pathological cues, which are not captured by existing medical benchmarks or instruction datasets. To this end, we introduce MMOral, the first large-scale multimodal instruction dataset and benchmark tailored for panoramic X-ray interpretation. MMOral consists of 20,563 annotated images paired with 1.3 million instruction-following instances across diverse task types, including attribute extraction, report generation, visual question answering, and image-grounded dialogue. In addition, we present MMOral-Bench, a comprehensive evaluation suite covering five key diagnostic dimensions in dentistry. We evaluate 64 LVLMs on MMOral-Bench and find that even the best-performing model, i.e., GPT-4o, only achieves 41.45% accuracy, revealing significant limitations of current models in this domain. To promote the progress of this specific domain, we also propose OralGPT, which conducts supervised fine-tuning (SFT) upon Qwen2.5-VL-7B with our meticulously curated MMOral instruction dataset. Remarkably, a single epoch of SFT yields substantial performance enhancements for LVLMs, e.g., OralGPT demonstrates a 24.73% improvement. Both MMOral and OralGPT hold significant potential as a critical foundation for intelligent dentistry and enable more clinically impactful multimodal AI systems in the dental field. The dataset, model, benchmark, and evaluation suite are available at https://github.com/isbrycee/OralGPT.
- Abstract(参考訳): 大規模視覚言語モデル(LVLM)の最近の進歩は、汎用医療タスクにおいて強力なパフォーマンスを示している。
しかし, 歯科医療などの専門分野における有効性は未解明のままである。
特に、経口放射線学で広く用いられている画像モダリティであるパノラマX線は、既存の医学ベンチマークや指導データセットでは捉えられない、密度の高い解剖学的構造と微妙な病理的手がかりによって解釈上の困難を生じさせる。
そこで本研究では,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介する。
MMOralは20,563枚の注釈付き画像と、属性抽出、レポート生成、視覚的質問応答、画像地上対話など、さまざまなタスクタイプにまたがる1.3百万のインストラクションフォローインスタンスを組み合わせて構成されている。
さらに, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートであるMMOral-Benchについて紹介する。
我々はMMOral-Bench上で64個のLVLMを評価し、最高の性能モデルであるGPT-4oでさえ41.45%の精度しか達成できず、この領域における現在のモデルに重大な制限があることを発見した。
また,この領域の進展を促進するために,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で教師付き微調整(SFT)を行うOralGPTを提案する。
注目すべきことに、SFTの1つのエポックはLVLMの大幅な性能向上をもたらし、例えばOralGPTは24.73%の改善を示している。
MMOralとOralGPTは共に、インテリジェントな歯科治療の重要な基盤として有意義な可能性を秘めており、歯科領域におけるより臨床的に影響のあるマルチモーダルAIシステムを可能にしている。
データセット、モデル、ベンチマーク、評価スイートはhttps://github.com/isbrycee/OralGPTで公開されている。
関連論文リスト
- A Multi-Stage Fine-Tuning and Ensembling Strategy for Pancreatic Tumor Segmentation in Diagnostic and Therapeutic MRI [7.8413564248632825]
本稿では、診断T1重み付け(Task1)と治療T2重み付け(Task2)の両方に対処するPANTHERチャレンジへの提案について詳述する。
我々のアプローチはnnU-Netフレームワーク上に構築されており、深いマルチステージの事前学習戦略を活用しています。
分析の結果,アグレッシブなデータ拡張によって高いボリューム精度が得られた,重要なトレードオフが明らかになった。
論文 参考訳(メタデータ) (2025-08-29T16:50:29Z) - DentalBench: Benchmarking and Advancing LLMs Capability for Bilingual Dentistry Understanding [18.678007079687706]
歯科領域における大規模言語モデル(LLM)の評価と進歩を目的とした,最初の総合的なベンチマークであるDentureBenchを紹介する。
デンタルベンチは、4つのタスクと16の歯科サブフィールドにまたがる36,597の質問がある英語と中国語の質問回答(QA)ベンチマークであるデンタルQAと、337.35万のトークンを歯科領域適応のためにキュレートした大規模で高品質なコーパスであるデンタルコーパスの2つの主要コンポーネントで構成されている。
論文 参考訳(メタデータ) (2025-08-28T04:35:51Z) - AMRG: Extend Vision Language Models for Automatic Mammography Report Generation [4.366802575084445]
マンモグラフィーレポート生成は、医療AIにおいて重要で未発見の課題である。
マンモグラフィーレポートを生成するための最初のエンドツーエンドフレームワークであるAMRGを紹介する。
DMIDを用いた高分解能マンモグラフィーと診断レポートの公開データセットであるAMRGのトレーニングと評価を行った。
論文 参考訳(メタデータ) (2025-08-12T06:37:41Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - OralBBNet: Spatially Guided Dental Segmentation of Panoramic X-Rays with Bounding Box Priors [34.82692226532414]
OralBBNetは、歯の分類とパノラマX線におけるセグメンテーションの精度と堅牢性を改善するように設計されている。
本手法は, 従来の方法と比較して, 平均平均精度 (mAP) が1~3%向上した。
本研究は, 歯科診断における対象検出モデルのより広範な実装の基盤を確立するものである。
論文 参考訳(メタデータ) (2024-06-06T04:57:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。