論文の概要: Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2605.29299v1
- Date: Thu, 28 May 2026 03:28:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.630541
- Title: Pocket-Dentist: On-Device Dental Image Understanding via Efficient Multimodal Large Language Models
- Title(参考訳): ポケットディニスト:マルチモーダル大言語モデルによるオンデバイス歯科画像理解
- Authors: Kai Bian, Xucheng Guo, Bin Chen, Lingyan Ruan, Yiran Shen, Ting Dang, Hong Jia,
- Abstract要約: 本稿では, 歯科用マルチモーダル質問応答の効率評価ベンチマークである Pocket-Dentist を提案する。
約1,159人の患者、5つのタスクタイプ、7つのメトリクスからなる3つのデータセットが提供される。
- 参考スコア(独自算出の注目度): 14.771023444277949
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluations of dental vision-language models remain fragmented across datasets, task definitions and metrics, and often ignore their computational cost. This limits their widespread deployment for dental screening outside specialist centres, where timely inference, limited hardware, and local handling of patient images are vital for practical, privacy-preserving clinical prescreening. Here we present Pocket-Dentist, an efficiency-aware benchmark for dental multimodal question answering that brings together three datasets spanning approximately 1,159 patients, five task types and seven metrics. Across typical 14 VLMs, our results reveals an interesting observation: compact VLMs (e.g., 2B-parameter models) outperform larger VLMs in accuracy while requiring substantially lower computational costs in dental image understanding. Deployed locally on an iPhone 17 Pro, our finetuned compact VLM Pocket-Dentist-2B processed each sample in 4.31 s, reducing latency by 4.9-fold and memory use by 2.3-fold compared with a 7B baseline.
- Abstract(参考訳): 歯科視覚言語モデルの評価は、データセット、タスク定義、メトリクスで断片化され、しばしば計算コストを無視する。
このことは、タイムリーな推論、ハードウェアの制限、患者の画像の局所的な処理が、実用的でプライバシーを保護した臨床前スクリーニングに不可欠である、歯科検診専門センターの外への展開を制限している。
約1,159人の患者、5つのタスクタイプ、7つのメトリクスにまたがる3つのデータセットをまとめた、歯科用マルチモーダル質問応答の効率を意識したベンチマークであるPocket-Dentistを紹介します。
小型のVLM (例: 2Bパラメータモデル) は, 歯科画像理解において, 計算コストを大幅に削減しつつ, より大きなVLMを精度良く上回っている。
iPhone 17 Proでローカルにデプロイされた当社の小型VLM Pocket-Dentist-2Bは、各サンプルを4.31秒で処理し、レイテンシを4.9倍、メモリ使用を7Bベースラインと比較して2.3倍削減した。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - OralGPT-Omni: A Versatile Dental Multimodal Large Language Model [44.919874082284686]
オラルGPT-オムニ (OralGPT-Omni) は, 各種歯科画像モダリティおよび臨床タスクを包括的に分析するための最初の歯科用特殊化MLLMである。
歯科医師の診断的推論を的確に把握するために,臨床に基礎をおくチェーン・オブ・ソート・データセットであるTRACE-CoTを構築した。
MMOral-Uniは歯科画像解析のための最初の統一型マルチモーダルベンチマークである。
論文 参考訳(メタデータ) (2025-11-27T03:21:20Z) - Towards Generalist Intelligence in Dentistry: Vision Foundation Models for Oral and Maxillofacial Radiology [22.124686092997717]
DentVFMは歯科医療用に設計された視覚基礎モデル(VFM)の最初のファミリーである。
幅広い歯科応用のためのタスク非依存の視覚表現を生成する。
それは印象的な一般知性を示し、多様な歯科作業に対する堅牢な一般化を実証している。
論文 参考訳(メタデータ) (2025-10-16T10:24:23Z) - DentVLM: A Multimodal Vision-Language Model for Comprehensive Dental Diagnosis and Enhanced Clinical Practice [71.62725911420627]
本稿では,専門レベルの口腔疾患診断のために設計された視覚言語モデルであるDentVLMを紹介する。
このモデルは、36の診断タスクで7つの2D経口画像モダリティを解釈できる。
若年者歯科医師13名(36名中21名)の診断成績を上回り,12名中12名(36名中12名)の診断成績を上回りました。
論文 参考訳(メタデータ) (2025-09-27T14:47:37Z) - Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。
MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。
また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文 参考訳(メタデータ) (2025-09-11T08:39:08Z) - EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。
我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。
私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文 参考訳(メタデータ) (2025-05-29T16:14:34Z) - 3DSAM-adapter: Holistic adaptation of SAM from 2D to 3D for promptable tumor segmentation [52.699139151447945]
医用画像の領域分割を行うために, SAMを2次元から3次元に変換する新しい適応法を提案する。
本モデルでは, 腎腫瘍, 膵腫瘍, 大腸癌の3つのタスクのうち8.25%, 29.87%, 10.11%の3つのタスクにおいて, ドメイン・オブ・ザ・アーティヴ・メディカル・イメージ・セグメンテーション・モデルより優れ, 肝腫瘍セグメンテーションでも同様の性能が得られる。
論文 参考訳(メタデータ) (2023-06-23T12:09:52Z) - AI-enabled Automatic Multimodal Fusion of Cone-Beam CT and Intraoral
Scans for Intelligent 3D Tooth-Bone Reconstruction and Clinical Applications [29.065668174732014]
仮想歯科治療計画における重要なステップは、CBCTから全ての歯骨構造を正確に切り離すことである。
従来の研究では、深層学習を用いたCBCTセグメンテーションのいくつかの方法が確立されている。
本稿では,CBCTセグメンテーションモデル,口腔内スキャン(IOS)セグメンテーションモデル,および3次元融合クラウン・ルート構造を生成する融合モデルからなる深部歯科用マルチモーダル分析フレームワークを提案する。
論文 参考訳(メタデータ) (2022-03-11T07:50:15Z) - SANSformers: Self-Supervised Forecasting in Electronic Health Records
with Attention-Free Models [48.07469930813923]
本研究は,医療施設への患者訪問数を予測することにより,医療サービスの需要を予測することを目的とする。
SNSformerは、特定の帰納バイアスを設計し、EHRデータの特異な特徴を考慮に入れた、注意のない逐次モデルである。
本研究は, 各種患者集団を対象とした医療利用予測の修正における, 注意力のないモデルと自己指導型事前訓練の有望な可能性について考察した。
論文 参考訳(メタデータ) (2021-08-31T08:23:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。