論文の概要: MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry
- arxiv url: http://arxiv.org/abs/2604.14866v1
- Date: Thu, 16 Apr 2026 10:56:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.853057
- Title: MetaDent: Labeling Clinical Images for Vision-Language Models in Dentistry
- Title(参考訳): MetaDent: 歯科における視覚言語モデルのための臨床画像のラベル付け
- Authors: Meng-Xun Li, Wen-Hui Deng, Zhi-Xing Wu, Chun-Xiao Jin, Jia-Min Wu, Yue Han, James Kit Hon Tsoi, Gui-Song Xia, Cui Huang,
- Abstract要約: VLM(Vision-Language Models)は、医用画像解析において重要な可能性を示している。
口内撮影におけるそれらの応用は、細粒度で注釈付きデータセットと包括的なベンチマークが欠如していることから、いまだほとんど探索されていない。
本稿では, 臨床, 公衆およびWebソースから収集した, 新規で大規模な歯科画像データセットを含む包括的リソースであるMetaDentについて紹介する。
- 参考スコア(独自算出の注目度): 32.93319761809706
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Models (VLMs) have demonstrated significant potential in medical image analysis, yet their application in intraoral photography remains largely underexplored due to the lack of fine-grained, annotated datasets and comprehensive benchmarks. To address this, we present MetaDent, a comprehensive resource that includes (1) a novel and large-scale dentistry image dataset collected from clinical, public, and web sources; (2) a semi-structured annotation framework designed to capture the hierarchical and clinically nuanced nature of dental photography; and (3) comprehensive benchmark suites for evaluating state-of-the-art VLMs on clinical image understanding. Our labeling approach combines a high-level image summary with point-by-point, free-text descriptions of abnormalities. This method enables rich, scalable, and task-agnostic representations. We curated 60,669 dental images from diverse sources and annotated a representative subset of 2,588 images using this meta-labeling scheme. Leveraging Large Language Models (LLMs), we derive standardized benchmarks: approximately 15K Visual Question Answering (VQA) pairs and an 18-class multi-label classification dataset, which we validated with human review and error analysis to justify that the LLM-driven transition reliably preserves fidelity and semantic accuracy. We then evaluate state-of-the-art VLMs across VQA, classification, and image captioning tasks. Quantitative results reveal that even the most advanced models struggle with a fine-grained understanding of intraoral scenes, achieving moderate accuracy and producing inconsistent or incomplete descriptions in image captioning. We publicly release our dataset, annotations, and tools to foster reproducible research and accelerate the development of vision-language systems for dental applications.
- Abstract(参考訳): VLM(Vision-Language Models)は、医用画像解析において大きな可能性を示しているが、細粒度で注釈付きデータセットや包括的なベンチマークが欠如していることから、口腔内撮影におけるその応用は、ほとんど未発見のままである。
そこで我々は,(1)臨床,公開,Webソースから収集された新規で大規模な歯科画像データセット,(2)歯科写真の階層的および臨床的にニュアンスな性質を捉えるための半構造化アノテーションフレームワーク,(3)臨床画像理解における最先端のVLMを評価するための総合的なベンチマークスイートを含む包括的リソースであるMetaDentを提案する。
我々のラベル付け手法は、高レベルの画像要約と、異常のポイント・バイ・ポイント・ポイント・フリーテキスト記述を組み合わせたものである。
この方法は、リッチでスケーラブルでタスクに依存しない表現を可能にする。
各種ソースから60,669枚の歯像を採取し, このメタラベル法を用いて2,588枚の画像の代表的サブセットを注釈した。
約15KのVisual Question Answering(VQA)ペアと18クラスのマルチラベル分類データセットを用いて,LLM駆動の遷移が忠実性とセマンティックな正確性を確実に保っていることを正当化するために,人間のレビューとエラー解析で検証した。
次に、VQA、分類、画像キャプションタスクにおける最先端のVLMを評価した。
定量的な結果から,最も先進的なモデルでさえ,口内シーンの微妙な理解に苦慮し,適度な精度を達成し,画像キャプションにおける矛盾や不完全な記述を生じさせることが明らかとなった。
我々は,再現可能な研究を促進するためのデータセット,アノテーション,ツールを公開し,歯科応用のための視覚言語システムの開発を加速する。
関連論文リスト
- A comprehensive multimodal dataset and benchmark for ulcerative colitis scoring in endoscopy [6.821894881874553]
潰瘍性大腸炎(英: Ulcerative colitis, UC)は、大腸癌のリスクが高くなる慢性粘膜炎症である。
最も広く使用されている内視鏡スコアは、マヨ内視鏡スコア(MES)と潰瘍性大腸炎重症度指数(UCEIS)である。
我々は、専門家検証されたMESとUCEISラベルと詳細な臨床記述を含む、キュレートされたマルチセント・マルチレゾリューションデータセットを導入する。
論文 参考訳(メタデータ) (2026-03-15T19:15:02Z) - Synthetic Vasculature and Pathology Enhance Vision-Language Model Reasoning [39.96133625333846]
本稿では,SVR(Synthetic Vasculature Reasoning)について紹介する。
これに基づいて10万対のOCTAイメージ推論データセットであるOCTA-100K-SVRをキュレートする。
実験により,データセット上で訓練された汎用VLMは,実際のOCTA画像に対して89.67%のゼロショットバランスの分類精度が得られることがわかった。
論文 参考訳(メタデータ) (2025-12-11T19:19:39Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - On the Risk of Misleading Reports: Diagnosing Textual Biases in Multimodal Clinical AI [4.866086225040713]
本稿では,モデルが二項分類タスクにおける各モータリティに依存することを定量化するための摂動に基づくアプローチを提案する。
画像やテキストを反対のラベルと交換することで、モダリティ固有のバイアスを露呈する。
論文 参考訳(メタデータ) (2025-07-31T21:35:52Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - MRGen: Segmentation Data Engine for Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。
本稿では,データ合成における生成モデルの利用について検討する。
本稿では,テキストプロンプトとセグメンテーションマスクを条件とした医用画像合成のためのデータエンジンMRGenを提案する。
論文 参考訳(メタデータ) (2024-12-04T16:34:22Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Learning to Exploit Temporal Structure for Biomedical Vision-Language
Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。
トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。
我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文 参考訳(メタデータ) (2023-01-11T16:35:33Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。