論文の概要: IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans
- arxiv url: http://arxiv.org/abs/2603.16781v1
- Date: Tue, 17 Mar 2026 16:57:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.432795
- Title: IOSVLM: A 3D Vision-Language Model for Unified Dental Diagnosis from Intraoral Scans
- Title(参考訳): IOSVLM : 口腔内スコープからの統一型歯科診断のための3次元視覚言語モデル
- Authors: Huimin Xiong, Zijie Meng, Tianxiang Hu, Chenyi Zhou, Yang Feng, Zuozhu Liu,
- Abstract要約: 3次元口腔内スキャン (IOS) は, 幾何学的証拠が豊富であることから, 日常的な歯科治療に採用されつつある。
我々は,スキャンを点雲として表現するエンドツーエンドの3次元VLMであるIOSVLMを提案する。
- 参考スコア(独自算出の注目度): 29.9935636058314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: 3D intraoral scans (IOS) are increasingly adopted in routine dentistry due to abundant geometric evidence, and unified multi-disease diagnosis is desirable for clinical documentation and communication. While recent works introduce dental vision-language models (VLMs) to enable unified diagnosis and report generation on 2D images or multi-view images rendered from IOS, they do not fully leverage native 3D geometry. Such work is necessary and also challenging, due to: (i) heterogeneous scan forms and the complex IOS topology, (ii) multi-disease co-occurrence with class imbalance and fine-grained morphological ambiguity, (iii) limited paired 3D IOS-text data. Thus, we present IOSVLM, an end-to-end 3D VLM that represents scans as point clouds and follows a 3D encoder-projector-LLM design for unified diagnosis and generative visual question-answering (VQA), together with IOSVQA, a large-scale multi-source IOS diagnosis VQA dataset comprising 19,002 cases and 249,055 VQA pairs over 23 oral diseases and heterogeneous scan types. To address the distribution gap between color-free IOS data and color-dependent 3D pre-training, we propose a geometry-to-chromatic proxy that stabilizes fine-grained geometric perception and cross-modal alignment. A two-stage curriculum training strategy further enhances robustness. IOSVLM consistently outperforms strong baselines, achieving gains of at least +9.58% macro accuracy and +1.46% macro F1, indicating the effectiveness of direct 3D geometry modeling for IOS-based diagnosis.
- Abstract(参考訳): 3次元口腔内スキャン (IOS) は, 幾何的証拠が豊富であることから, 日常的な歯科医療に採用されつつある。
近年の研究では, 歯科視覚言語モデル(VLM)を導入して2次元画像や多視点画像の統一診断とレポート生成を実現しているが, ネイティブな3次元形状を十分に活用していない。
このような作業は必要であり、課題でもある。
i)ヘテロジニアススキャン形式と複素IOSトポロジー
(II)クラス不均衡と微粒な形態的あいまいさを伴う多相共起
(iii) 制限付き3D IOSテキストデータ。
そこで我々は,スキャンを点雲として表現し,統合診断および生成的視覚質問応答(VQA)のための3Dエンコーダ-プロジェクタ-LLM設計に従う,エンドツーエンドの3D VLMであるIOSVLMと,大規模なマルチソースIOS診断VQAデータセットであるIOSVQAについて述べる。
色無色IOSデータと色非依存の3次元事前学習の間の分布ギャップに対処するため, 微粒な幾何学的知覚とクロスモーダルアライメントを安定化する幾何-色間プロキシを提案する。
2段階のカリキュラムトレーニング戦略は、ロバスト性をさらに強化する。
IOSVLMは強いベースラインを一貫して上回り、少なくとも9.58%のマクロ精度と1.46%のマクロF1を達成し、IOSベースの診断における直接3D幾何学モデリングの有効性を示している。
関連論文リスト
- MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models [59.180043227905294]
MedPrunerは、3次元医用画像の効率的な理解のためのトレーニング不要でモデルに依存しない階層的トークンプレーニングフレームワークである。
我々は、MedPrunerによって、MedGemmaのようなモデルが元の性能を維持したり、超えたりすることが可能であり、ビジュアルトークンの5%以下を維持していることを示す。
論文 参考訳(メタデータ) (2026-03-12T07:37:00Z) - Multimodal Visual Surrogate Compression for Alzheimer's Disease Classification [69.87877580725768]
MVSC(Multimodal Visual Surrogate Compression)は、大規模な3D sMRIボリュームをコンパクトな2D機能に圧縮し、適応させることを学ぶ。
MVSCには2つの重要なコンポーネントがある: テキストガイダンスの下でグローバルなクロススライスコンテキストをキャプチャするボリュームコンテキストと、テキストエンハンスでパッチワイズな方法でスライスレベルの情報を集約するAdaptive Slice Fusionモジュール。
論文 参考訳(メタデータ) (2026-01-29T13:05:46Z) - 3D-RAD: A Comprehensive 3D Radiology Med-VQA Dataset with Multi-Temporal Analysis and Diverse Diagnostic Tasks [22.761853189757772]
医用視覚質問応答 (Med-VQA) は, 臨床診断支援に有意な可能性を秘めている。
本稿では,ラジオグラフィCTスキャンを用いた3次元メドVQAの高速化を目的とした大規模データセットである3D-RADを提案する。
論文 参考訳(メタデータ) (2025-06-11T09:55:42Z) - Med3DVLM: An Efficient Vision-Language Model for 3D Medical Image Analysis [6.464464511743737]
ビジョン言語モデル(VLM)は、2Dの医療画像解析において有望であるが、3Dに拡張することは依然として困難である。
Med3DVLMは3つの重要なイノベーションを通じてこれらの課題に対処するために設計された3D VLMである。
我々は,120,084個の医用画像に対して,放射線学報告とVQAデータを含むM3Dデータセットを用いて本モデルを評価した。
論文 参考訳(メタデータ) (2025-03-25T20:09:30Z) - E3D-GPT: Enhanced 3D Visual Foundation for Medical Vision-Language Model [23.56751925900571]
3次元医用視覚言語モデルの開発は、疾患の診断と患者の治療に有意な可能性を秘めている。
自己教師付き学習を用いて3次元視覚特徴抽出のための3次元視覚基盤モデルを構築した。
本研究では,3次元空間畳み込みを高精細画像の特徴の集約・投影に応用し,計算複雑性を低減した。
本モデルは,既存の報告生成法,視覚的質問応答法,疾患診断法と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-18T06:31:40Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Automated Model Design and Benchmarking of 3D Deep Learning Models for
COVID-19 Detection with Chest CT Scans [72.04652116817238]
3D胸部CTスキャン分類のための3D DLモデルを自動的に検索するための差別化可能なニューラルネットワーク探索(DNAS)フレームワークを提案する。
また,我々のモデルのクラスアクティベーションマッピング(cam)技術を利用して,結果の解釈可能性を提供する。
論文 参考訳(メタデータ) (2021-01-14T03:45:01Z) - TSGCNet: Discriminative Geometric Feature Learning with Two-Stream
GraphConvolutional Network for 3D Dental Model Segmentation [141.2690520327948]
2流グラフ畳み込みネットワーク(TSGCNet)を提案し、異なる幾何学的特性から多視点情報を学ぶ。
3次元口腔内スキャナーで得られた歯科モデルのリアルタイムデータセットを用いてTSGCNetの評価を行った。
論文 参考訳(メタデータ) (2020-12-26T08:02:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。