Fugu-MT 論文翻訳(概要): OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

論文の概要: OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice

arxiv url: http://arxiv.org/abs/2605.01333v2
Date: Fri, 08 May 2026 01:08:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-11 16:31:22.623997
Title: OralMLLM-Bench: Evaluating Cognitive Capabilities of Multimodal Large Language Models in Dental Practice
Title（参考訳）: OralMLLM-Bench:歯科診療における多モーダル大言語モデルの認知能力の評価
Authors: Rongyang Wang, Shuang Zhou, Jiashuo Wang, Wenya Xie, Xiaoxia Che,
Abstract要約: マルチモーダル大言語モデル (MLLM) は, 歯科画像解析において有望なパラダイムとして出現している。歯科用X線写真解析におけるMLLMの認知能力を評価するためのベンチマークを提案する。
参考スコア（独自算出の注目度）: 6.77984726116907
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal large language models (MLLMs) have emerged as a promising paradigm for dental image analysis. However, their ability to capture the multi-level cognitive processes required for radiographic analysis remains unclear. Here, we present a comprehensive benchmark to evaluate the cognitive capabilities of MLLMs in dental radiographic analysis. It spans three critical imaging modalities, i.e., periapical, panoramic, and lateral cephalometric radiographs, and defines four cognitive categories: perception, comprehension, prediction, and decision-making. The benchmark comprises 27 clinically grounded tasks derived from public datasets, with manually curated annotations and 3,820 clinician assessments for evaluation. Six frontier MLLMs, including GPT-5.2 and GLM-4.6, are evaluated. We demonstrate the performance gap between MLLMs and clinicians in dental practice, delineate model strengths and limitations, characterize failure patterns, and provide recommendations for improvement. This data resource will facilitate the development of next-generation artificial intelligence systems aligned with clinical cognition, safety requirements, and workflow complexity in dental practice.
Abstract（参考訳）: マルチモーダル大言語モデル (MLLM) は, 歯科画像解析において有望なパラダイムとして出現している。しかし、X線分析に必要な多段階認知過程を捉える能力は、まだ不明である。本稿では,歯科用X線写真解析におけるMLLMの認知能力を評価するための総合的ベンチマークを提案する。 3つの重要な画像モダリティ、すなわち、心尖部、パノラマ性、および側頭蓋X線写真にまたがっており、知覚、理解、予測、意思決定の4つの認知カテゴリーを定義している。このベンチマークは、公開データセットから得られた27の臨床的根拠のあるタスクと、手作業によるアノテーションと、評価のための3,820のクリニックアセスメントで構成されている。 GPT-5.2とGLM-4.6を含む6つのフロンティアMLLMを評価した。歯科診療におけるMLLMと臨床医のパフォーマンスギャップを実証し, モデル強度と限界を明確にし, 故障パターンを特徴付けるとともに, 改善を推奨する。このデータリソースは、歯科医療における臨床認知、安全性要件、ワークフローの複雑さに対応する次世代人工知能システムの開発を促進する。

関連論文リスト

OralGPT-Plus: Learning to Use Visual Tools via Reinforcement Learning for Panoramic X-ray Analysis [18.122862443950847]
本研究では,パノラマX線写真解析のための視覚言語モデルOralGPT-Plusを紹介する。そこで我々は,専門家による診断トラジェクトリを用いた5次元画像データセットであるDorphProbeを開発した。全身性パノラマ診断のための最初のベンチマークであるMMOral-Xを報告する。
論文参考訳（メタデータ） (2026-03-06T15:16:30Z)
DermoGPT: Open Weights and Open Data for Morphology-Grounded Dermatological Reasoning MLLMs [54.8829900010621]
MLLM (Multimodal Large Language Models) は、医学的応用を約束するが、限られたトレーニングデータ、狭いタスクカバレッジ、臨床現場での監督の欠如により、皮膚科の遅れが進行する。これらのギャップに対処するための包括的なフレームワークを提示します。まず,211,243のイメージと72,675のトラジェクトリを5つのタスク形式に分けた大規模形態素解析コーパスであるDermo Instructを紹介する。第二にDermoBenchは、4つの臨床軸(形態学、診断、推論、フェアネス)にまたがる11のタスクを評価する厳密なベンチマークで、3600の挑戦的なサブセットを含む。
論文参考訳（メタデータ） (2026-01-05T07:55:36Z)
Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。 CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。 CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文参考訳（メタデータ） (2025-11-24T02:02:29Z)
Towards Better Dental AI: A Multimodal Benchmark and Instruction Dataset for Panoramic X-ray Analysis [16.403842140593706]
我々は,パノラマX線解釈に適した大規模マルチモーダル・インストラクション・データセットであるMMOralを紹介した。 MMOral-Benchは, 歯科医療における5つの重要な診断次元をカバーする総合的な評価スイートである。また,厳密にキュレートされたMMOral命令データセットを用いて,Qwen2.5-VL-7B上で微調整を行うOralGPTを提案する。
論文参考訳（メタデータ） (2025-09-11T08:39:08Z)
Medical Reasoning in the Era of LLMs: A Systematic Review of Enhancement Techniques and Applications [59.721265428780946]
医学における大きな言語モデル(LLM)は印象的な能力を実現しているが、体系的で透明で検証可能な推論を行う能力に重大なギャップが残っている。本稿は、この新興分野に関する最初の体系的なレビューを提供する。本稿では,学習時間戦略とテスト時間メカニズムに分類した推論強化手法の分類法を提案する。
論文参考訳（メタデータ） (2025-08-01T14:41:31Z)
Uncertainty-Driven Expert Control: Enhancing the Reliability of Medical Vision-Language Models [52.2001050216955]
既存の方法は、モデル構造を調整したり、高品質なデータで微調整したり、好みの微調整によって、医療ビジョン言語モデル(MedVLM)の性能を向上させることを目的としている。我々は,MedVLMと臨床専門知識の連携を図るために,Expert-Controlled-Free Guidance (Expert-CFG) という,ループ内のエキスパート・イン・ザ・ループフレームワークを提案する。
論文参考訳（メタデータ） (2025-07-12T09:03:30Z)
EndoBench: A Comprehensive Evaluation of Multi-Modal Large Language Models for Endoscopy Analysis [62.00431604976949]
EndoBenchは、内視鏡的プラクティスの全スペクトルにわたるMLLMを評価するために特別に設計された最初の包括的なベンチマークである。我々は、汎用、医療特化、プロプライエタリMLLMを含む23の最先端モデルをベンチマークする。私たちの実験では、プロプライエタリなMLLMは、オープンソースや医療専門のモデルよりも優れていますが、それでも人間の専門家を追い越しています。
論文参考訳（メタデータ） (2025-05-29T16:14:34Z)
Beyond the Hype: A dispassionate look at vision-language models in medical scenario [3.4299097748670255]
LVLM(Large Vision-Language Models)は、様々なタスクにまたがる顕著な能力を示す。医学などの専門分野における性能や信頼性は依然として十分に評価されていない。本稿では,既存のLVLMを包括的に評価する新しいベンチマークであるRadVUQAを紹介する。
論文参考訳（メタデータ） (2024-08-16T12:32:44Z)
SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。 6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文参考訳（メタデータ） (2024-07-03T11:02:12Z)
VBridge: Connecting the Dots Between Features, Explanations, and Data for Healthcare Models [85.4333256782337]
VBridgeは、臨床医の意思決定ワークフローに機械学習の説明をシームレスに組み込むビジュアル分析ツールである。我々は,臨床医がMLの特徴に慣れていないこと,文脈情報の欠如,コホートレベルの証拠の必要性など,3つの重要な課題を特定した。症例スタディと専門医4名のインタビューを通じて, VBridgeの有効性を実証した。
論文参考訳（メタデータ） (2021-08-04T17:34:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。