論文の概要: Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models
- arxiv url: http://arxiv.org/abs/2603.07403v1
- Date: Sun, 08 Mar 2026 01:31:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:14.406696
- Title: Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models
- Title(参考訳): 視覚言語モデルを用いたシングルトゥース歯科画像のプロンプトベースキャプション生成
- Authors: Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana,
- Abstract要約: 歯に関する総合的な知識を持つ専門的なモデルが欠如している。
既存の歯像データセットとキャプションは数が少なく、範囲は限られている。
- 参考スコア(独自算出の注目度): 1.6556964796610834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Digital dentistry has made significant advances with the advent of deep learning. However, the majority of these deep learning-based dental image analysis models focus on very specific tasks such as tooth segmentation, tooth detection, cavity detection, and gingivitis classification. There is a lack of a specialized model that has holistic knowledge of teeth and can perform dental image analysis tasks based on that knowledge. Datasets of dental images with captions can help build such a model. To the best of our knowledge, existing dental image datasets with captions are few in number and limited in scope. In many of these datasets, the captions describe the entire mouth, while the images are limited to the anterior view. As a result, posterior teeth such as molars are not clearly visible, limiting the usefulness of the captions for training vision-language models. Additionally, the captions focus only on a specific disease (gingivitis) and do not provide a holistic assessment of each tooth. Moreover, tooth disease scores are typically assigned to individual teeth, and each tooth is treated as a separate entity in orthodontic procedures. Therefore, it is important to have captions for single-tooth images. As far as we know, no such dataset of single-tooth images with dental captions exists. In this work, we aim to bridge that gap by assessing the possibility of generating captions for dental images using Vision-Language Models (VLMs) and evaluating the extent and quality of those captions. Our findings suggest that guided prompts help VLMs generate meaningful captions. We show that the prompts generated by our framework are better anchored in describing the visual aspects of dental images. We selected RGB images as they have greater potential in consumer scenarios.
- Abstract(参考訳): デジタル歯科は深層学習の出現とともに大きな進歩を遂げた。
しかし、これらの深層学習に基づく歯科画像分析モデルの大半は、歯のセグメント化、歯の発見、空洞検出、歯肉炎の分類など、非常に特殊なタスクに焦点を当てている。
歯の全体的知識を有し、その知識に基づいて歯科画像解析タスクを行うことのできる専門モデルが欠如している。
歯のイメージとキャプションのデータセットは、そのようなモデルを構築するのに役立ちます。
我々の知る限り、既存のキャプション付き歯科画像データセットは数が少なく、範囲は限られている。
これらのデータセットの多くでは、キャプションは口全体を記述するが、画像は前方のビューに限られている。
その結果,臼歯などの後歯は明瞭に見えず,視覚言語モデルの訓練におけるキャプションの有用性が制限された。
さらに、キャプションは特定の疾患(歯肉炎)のみに焦点を当てており、各歯の全体的評価を提供していない。
さらに、歯の疾患スコアは通常、個々の歯に割り当てられ、各歯は矯正処置において別個の実体として扱われる。
そのため、一本の歯像のキャプションを持つことが重要である。
私たちが知る限りでは、歯冠のある単一歯像のデータセットは存在しない。
本研究では,視覚言語モデル(VLM)を用いて歯科画像のキャプションを生成する可能性を評価し,それらのキャプションの大きさと品質を評価することにより,そのギャップを埋めることを目的とする。
以上の結果から,VLMが意味のあるキャプションを生成するのに,ガイドプロンプトが有効であることが示唆された。
本研究は, 歯像の視覚的側面を説明する上で, 枠組みによって生成されたプロンプトが, より定着していることを示す。
消費者シナリオにおいて大きな可能性を秘めたRGB画像を選択した。
関連論文リスト
- DentalX: Context-Aware Dental Disease Detection with Radiographs [44.3806898357896]
放射線写真から歯科疾患を診断することは、診断証拠の微妙な性質のため、時間がかかり、困難である。
既存の方法は物体検出モデルに依存しており、視覚的支援がはるかに少ない歯の疾患を検出するのに苦労している。
本稿では,新しいコンテキスト認識型歯科疾患検出手法であるbf DentalXを提案する。
論文 参考訳(メタデータ) (2026-01-13T18:32:28Z) - Adapting Foundation Model for Dental Caries Detection with Dual-View Co-Training [53.77904429789069]
本稿では, 歯列検出のための新しいDual-View Co-TrainingネットワークであるAttention-TNetについて紹介する。
OurTNetは、自動歯肉検出を用いて、パノラマX線画像からのグローバルビューと、収穫した歯肉画像からのローカルビューの2つの補完的なビューを確立する。
両ビューからの情報を効果的に統合するために,Gated Cross-Viewモジュールを導入する。
論文 参考訳(メタデータ) (2025-08-28T14:13:26Z) - Teeth-SEG: An Efficient Instance Segmentation Framework for Orthodontic Treatment based on Anthropic Prior Knowledge [8.87268139736394]
本稿では,階層化されたマルチスケールアグリゲーション(MSA)ブロックと,人為的優先知識(APK)レイヤから構成されるTeethSEGというViTベースのフレームワークを提案する。
これらの問題に対処するために,階層化マルチスケールアグリゲーション(MSA)ブロックと人為的優先知識(APK)レイヤからなる,TeethSEGというViTベースのフレームワークを提案する。
IO150Kを用いた実験により, 歯質SEGは, 歯科画像のセグメンテーションにおける最先端のセグメンテーションモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-04-01T09:34:51Z) - Multiclass Segmentation using Teeth Attention Modules for Dental X-ray
Images [8.041659727964305]
本研究では,スイニングトランスフォーマーとTABを用いたM-Net様構造を取り入れた新しい歯のセグメンテーションモデルを提案する。
提案したTABは、歯の複雑な構造に特化するユニークな注意機構を利用する。
提案アーキテクチャは,各歯とその周辺構造を正確に定義し,局所的およびグローバルな文脈情報を効果的に取得する。
論文 参考訳(メタデータ) (2023-11-07T06:20:34Z) - YOLOrtho -- A Unified Framework for Teeth Enumeration and Dental Disease
Detection [4.136033167469768]
YOLOrthoは歯列挙と歯科疾患検出のための統合された枠組みである。
我々は,3種類の注釈付きデータからなるDentex Challenge 2023データに基づくモデルを開発した。
このデータを十分に活用し,同時に歯の発見と疾患の同定を学習するために,本研究では,歯に付着する属性として疾患を定式化する。
論文 参考訳(メタデータ) (2023-08-11T06:54:55Z) - Construction of unbiased dental template and parametric dental model for
precision digital dentistry [46.459289444783956]
CBCT画像から正確な歯科用アトラスを作製し, 歯のセグメンテーションを誘導するアンバイアスド歯科用テンプレートを開発した。
実際の被写体のCBCT画像159枚を収集して施工する。
論文 参考訳(メタデータ) (2023-04-07T09:39:03Z) - An Implicit Parametric Morphable Dental Model [79.29420177904022]
歯および歯茎の3次元異形性モデルとして, 第一報を提出した。
これは、各歯と歯茎のコンポーネントワイド表現と、これら各コンポーネントの学習可能な潜在コードに基づいている。
我々の復元品質は、新しいアプリケーションを実現しつつ、最も先進的なグローバルな暗黙の表現と同等です。
論文 参考訳(メタデータ) (2022-11-21T12:23:54Z) - OdontoAI: A human-in-the-loop labeled data set and an online platform to
boost research on dental panoramic radiographs [53.67409169790872]
本研究では, 歯科用パノラマX線画像の公開データセットの構築について述べる。
我々はHuman-in-the-loop(HITL)の概念の恩恵を受け、ラベリング手順を高速化する。
その結果,HITLによるラベル付け時間短縮率は51%であり,連続作業時間390時間以上節約できた。
論文 参考訳(メタデータ) (2022-03-29T18:57:23Z) - Egoshots, an ego-vision life-logging dataset and semantic fidelity
metric to evaluate diversity in image captioning models [63.11766263832545]
我々は,字幕のない実生活画像978枚からなる新しい画像キャプションデータセット,Egoshotsを提案する。
生成されたキャプションの品質を評価するために,新しい画像キャプション指標,オブジェクトベースセマンティックフィデリティ(SF)を提案する。
論文 参考訳(メタデータ) (2020-03-26T04:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。