論文の概要: An Autoencoder and Vision Transformer-based Interpretability Analysis of the Differences in Automated Staging of Second and Third Molars
- arxiv url: http://arxiv.org/abs/2509.09911v1
- Date: Fri, 12 Sep 2025 00:54:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:07.950925
- Title: An Autoencoder and Vision Transformer-based Interpretability Analysis of the Differences in Automated Staging of Second and Third Molars
- Title(参考訳): 自己エンコーダと視覚変換器を用いた2次および3次臼歯の自動ステージングの差異の解釈可能性解析
- Authors: Barkin Buyukcakir, Jannick De Tobel, Patrick Thevissen, Dirk Vandermeulen, Peter Claes,
- Abstract要約: 本研究では,高精度な法医学的応用における性能と透明性の両立を図ったフレームワークを提案する。
下顎第2(第37歯)および第3(第38歯)臼歯の自動ステージングでは,顕著な性能差が認められた。
- 参考スコア(独自算出の注目度): 4.6984251688936425
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The practical adoption of deep learning in high-stakes forensic applications, such as dental age estimation, is often limited by the 'black box' nature of the models. This study introduces a framework designed to enhance both performance and transparency in this context. We use a notable performance disparity in the automated staging of mandibular second (tooth 37) and third (tooth 38) molars as a case study. The proposed framework, which combines a convolutional autoencoder (AE) with a Vision Transformer (ViT), improves classification accuracy for both teeth over a baseline ViT, increasing from 0.712 to 0.815 for tooth 37 and from 0.462 to 0.543 for tooth 38. Beyond improving performance, the framework provides multi-faceted diagnostic insights. Analysis of the AE's latent space metrics and image reconstructions indicates that the remaining performance gap is data-centric, suggesting high intra-class morphological variability in the tooth 38 dataset is a primary limiting factor. This work highlights the insufficiency of relying on a single mode of interpretability, such as attention maps, which can appear anatomically plausible yet fail to identify underlying data issues. By offering a methodology that both enhances accuracy and provides evidence for why a model may be uncertain, this framework serves as a more robust tool to support expert decision-making in forensic age estimation.
- Abstract(参考訳): 歯年齢推定などの高度な法医学的応用におけるディープラーニングの実践的採用は、しばしばモデルの「ブラックボックス」の性質によって制限される。
本研究は,この文脈における性能と透明性の両面を強化するために設計されたフレームワークを紹介する。
下顎2度目(歯)の自動ステージングにおける特筆すべき性能差について
37) および第3(歯)
38)大臼歯を症例として検討した。
The proposed framework which a convolutional autoencoder (AE) with a Vision Transformer (ViT) improves both teeth over a baseline ViT, increased to 0.712 to 0.815 for teeth 37, from 0.462 to 0.543 for teeth 38。
パフォーマンスの改善に加えて、このフレームワークは多面的な診断の洞察を提供する。
AEの潜伏空間の指標と画像再構成の分析は、残りのパフォーマンスギャップがデータ中心であることを示し、歯38データセットにおける高いクラス内形態的変動が第一の制限因子であることを示唆している。
この研究は、解剖学的に妥当に見えるが基礎となるデータ問題を特定するのに失敗するアテンションマップのような、単一の解釈可能性のモードに依存することの欠如を強調している。
正確性を高め、なぜモデルが不確実かを示す方法論を提供することにより、このフレームワークは法定年齢推定における専門家の意思決定を支援するためのより堅牢なツールとして機能する。
関連論文リスト
- Advanced Deep Learning Techniques for Classifying Dental Conditions Using Panoramic X-Ray Images [0.0]
本研究では,パノラマX線画像における歯質自動分類のための深層学習手法について検討した。
カスタム畳み込みニューラルネットワーク(CNN)、CNN特徴抽出と従来の分類器を組み合わせたハイブリッドモデル、微調整された事前学習アーキテクチャの3つのアプローチが評価された。
その結果, ハイブリッドモデルにより形態的類似条件の識別が向上し, 効率的かつ信頼性の高い性能が得られた。
論文 参考訳(メタデータ) (2025-08-27T04:52:50Z) - Mitigating Biases in Surgical Operating Rooms with Geometry [40.5145973787288]
ディープニューラルネットワークは、予測のためにデータセット固有のアーティファクトを活用することで、急激な相関を学習する傾向がある。
外科手術室 (OR) では, スモックやガウンの標準化により, 目印が不明瞭であることが明らかとなった。
この問題を解決するために、人員を3Dポイントクラウドシーケンスとしてエンコードし、外見に基づく共同設立者からアイデンティティ関連形状と動きパターンを遠ざけている。
論文 参考訳(メタデータ) (2025-08-11T14:32:32Z) - HANS-Net: Hyperbolic Convolution and Adaptive Temporal Attention for Accurate and Generalizable Liver and Tumor Segmentation in CT Imaging [1.3149714289117207]
腹部CT像における肝・腫瘍の正確なセグメンテーションは確実な診断と治療計画に重要である。
ニューラル表現とシナプティック・プラスティック・ネットワーク(HANS-Net)を用いたハイパーボリック・コンボリューションの導入
HANS-Netは、階層的幾何表現のための双曲的畳み込み、マルチスケールテクスチャ学習のためのウェーブレットインスパイアされた分解モジュール、暗黙の神経表現分岐を組み合わせた。
論文 参考訳(メタデータ) (2025-07-15T13:56:37Z) - APTOS-2024 challenge report: Generation of synthetic 3D OCT images from fundus photographs [42.58128666405841]
アジア太平洋眼科会(Asia Pacific Tele-Ophthalmology Society)は、人工知能に基づくOCT生成(OCT Generation from Fundus Images)という課題を組織した。
本稿では、ベンチマークデータセットを含むチャレンジフレームワーク(APTOS-2024 Challenge)について詳述する。
このチャレンジには342チームが参加し、42の予備出場と9人のファイナリストが参加した。
論文 参考訳(メタデータ) (2025-06-09T08:29:37Z) - Latent Diffusion Autoencoders: Toward Efficient and Meaningful Unsupervised Representation Learning in Medical Imaging [41.446379453352534]
LDAE(Latent Diffusion Autoencoder)は、医用画像における効率的で有意義な教師なし学習のための、エンコーダ-デコーダ拡散に基づく新しいフレームワークである。
本研究は,ADNIデータベースの脳MRIを用いたアルツハイマー病(AD)を事例として検討した。
論文 参考訳(メタデータ) (2025-04-11T15:37:46Z) - ScaleMAI: Accelerating the Development of Trusted Datasets and AI Models [46.80682547774335]
我々はAI統合データキュレーションとアノテーションのエージェントであるScaleMAIを提案する。
まず、ScaleMAIは25,362個のCTスキャンを作成した。
第2に、プログレッシブなヒューマン・イン・ザ・ループのイテレーションを通じて、ScaleMAIはFragship AI Modelを提供する。
論文 参考訳(メタデータ) (2025-01-06T22:12:00Z) - Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease [0.0]
本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
論文 参考訳(メタデータ) (2024-08-16T20:15:24Z) - Spatial-aware Transformer-GRU Framework for Enhanced Glaucoma Diagnosis from 3D OCT Imaging [3.093890460224435]
本稿では3次元光コヒーレンス・トモグラフィー(OCT)画像の診断値を利用した新しいディープラーニングフレームワークを提案する。
我々は、リッチスライスな特徴抽出のための網膜データに事前学習された視覚変換器と、スライス間空間依存性をキャプチャするための双方向Gated Recurrent Unitを統合する。
論文 参考訳(メタデータ) (2024-03-08T22:25:15Z) - The effect of data augmentation and 3D-CNN depth on Alzheimer's Disease
detection [51.697248252191265]
この研究は、データハンドリング、実験設計、モデル評価に関するベストプラクティスを要約し、厳密に観察する。
我々は、アルツハイマー病(AD)の検出に焦点を当て、医療における課題のパラダイム的な例として機能する。
このフレームワークでは,3つの異なるデータ拡張戦略と5つの異なる3D CNNアーキテクチャを考慮し,予測15モデルを訓練する。
論文 参考訳(メタデータ) (2023-09-13T10:40:41Z) - Vision Transformers for femur fracture classification [59.99241204074268]
Vision Transformer (ViT) はテスト画像の83%を正確に予測することができた。
史上最大かつ最もリッチなデータセットを持つサブフラクチャーで良い結果が得られた。
論文 参考訳(メタデータ) (2021-08-07T10:12:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。