論文の概要: A benchmark multimodal oro-dental dataset for large vision-language models
- arxiv url: http://arxiv.org/abs/2511.04948v1
- Date: Fri, 07 Nov 2025 03:14:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-10 21:00:44.659617
- Title: A benchmark multimodal oro-dental dataset for large vision-language models
- Title(参考訳): 大規模視覚言語モデルのためのマルチモーダルオーロデンタルデータセットのベンチマーク
- Authors: Haoxin Lv, Ijazul Haq, Jin Du, Jiaxin Ma, Binnian Zhu, Xiaobing Dang, Chaoan Liang, Ruxu Du, Yingjie Zhang, Muhammad Saqib,
- Abstract要約: データセットには、口腔内画像50万、放射線写真8056、診断、治療計画、フォローアップノートなど詳細なテキスト記録が含まれている。
我々は,最先端の大規模視覚言語モデルであるQwen-VL 3Bと7Bを微調整し,これらを6つのオーロデンタル異常の分類と完全診断レポートの作成の2つのタスクで評価した。
このデータセットは公開されており、将来のAI歯科研究に不可欠なリソースを提供する。
- 参考スコア(独自算出の注目度): 5.063576567382722
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The advancement of artificial intelligence in oral healthcare relies on the availability of large-scale multimodal datasets that capture the complexity of clinical practice. In this paper, we present a comprehensive multimodal dataset, comprising 8775 dental checkups from 4800 patients collected over eight years (2018-2025), with patients ranging from 10 to 90 years of age. The dataset includes 50000 intraoral images, 8056 radiographs, and detailed textual records, including diagnoses, treatment plans, and follow-up notes. The data were collected under standard ethical guidelines and annotated for benchmarking. To demonstrate its utility, we fine-tuned state-of-the-art large vision-language models, Qwen-VL 3B and 7B, and evaluated them on two tasks: classification of six oro-dental anomalies and generation of complete diagnostic reports from multimodal inputs. We compared the fine-tuned models with their base counterparts and GPT-4o. The fine-tuned models achieved substantial gains over these baselines, validating the dataset and underscoring its effectiveness in advancing AI-driven oro-dental healthcare solutions. The dataset is publicly available, providing an essential resource for future research in AI dentistry.
- Abstract(参考訳): 口腔医療における人工知能の進歩は、臨床実践の複雑さを捉える大規模なマルチモーダルデータセットの可用性に依存している。
本報告では,8年間 (2018-2025) に収集した4800名の歯科検診患者8775名を対象に, 10歳から90歳までの患者を対象とした総合的マルチモーダルデータセットを提案する。
データセットには、口腔内画像50万、放射線写真8056、診断、治療計画、フォローアップノートなど詳細なテキスト記録が含まれている。
データは標準の倫理ガイドラインに基づいて収集され、ベンチマークのために注釈付けされた。
有用性を示すために、我々は最先端の大規模視覚言語モデルであるQwen-VL 3Bと7Bを微調整し、それらを6つのオーロデンタル異常の分類とマルチモーダル入力からの完全診断レポートの生成という2つのタスクで評価した。
微調整モデルとベースモデル, GPT-4oを比較した。
微調整されたモデルは、これらのベースラインよりも大幅に向上し、データセットを検証し、AI駆動のオーロデンタルヘルスケアソリューションを前進させる効果を裏付けた。
このデータセットは公開されており、将来のAI歯科研究に不可欠なリソースを提供する。
関連論文リスト
- Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:39:08Z) - SemiHVision: Enhancing Medical Multimodal Models with a Semi-Human Annotated Dataset and Fine-Tuned Instruction Generation [13.672776832197918]
MLLM(Multimodal large language model)は大きな進歩を遂げているが、専門知識が限られているため、医療分野の課題に直面している。
データ収集やモデル微調整,評価など,エンドツーエンドの学習パイプラインのさまざまな段階において,このギャップに対処することを目指している。
論文 参考訳(メタデータ) (2024-10-19T02:35:35Z) - PathInsight: Instruction Tuning of Multimodal Datasets and Models for Intelligence Assisted Diagnosis in Histopathology [7.87900104748629]
6つの異なるタスクをカバーする約45,000のケースのデータセットを慎重にコンパイルしました。
特にLLaVA, Qwen-VL, InternLMを微調整したマルチモーダル大規模モデルで, このデータセットを用いて命令ベースの性能を向上させる。
論文 参考訳(メタデータ) (2024-08-13T17:05:06Z) - GMAI-MMBench: A Comprehensive Multimodal Evaluation Benchmark Towards General Medical AI [67.09501109871351]
LVLM(Large Vision-Language Model)は、画像、テキスト、生理学的信号などの多様なデータタイプを扱うことができる。
GMAI-MMBenchは、よく分類されたデータ構造と、これまででもっとも包括的な一般医療用AIベンチマークである。
38の医療画像モダリティ、18の臨床関連タスク、18の部門、視覚質問回答(VQA)フォーマットの4つの知覚的粒度からなる284のデータセットで構成されている。
論文 参考訳(メタデータ) (2024-08-06T17:59:21Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Integrated multimodal artificial intelligence framework for healthcare
applications [3.6222901399459215]
我々は,マルチモーダル入力を利用するAIシステムの生成とテストを容易にするために,統合されたホリスティックAI in Medicineフレームワークを提案し,評価する。
このアプローチでは、一般化可能なデータ前処理と機械学習モデリングステージを使用し、医療環境における研究やデプロイメントに容易に適応できる。
このフレームワークは、さまざまなヘルスケアのデモンストレーションにおいて、同様のシングルソースアプローチを上回る、一貫して、堅牢にモデルを生成できることを示します。
論文 参考訳(メタデータ) (2022-02-25T22:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。