論文の概要: A multimodal vision foundation model for generalizable knee pathology
- arxiv url: http://arxiv.org/abs/2601.18250v1
- Date: Mon, 26 Jan 2026 08:14:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.731227
- Title: A multimodal vision foundation model for generalizable knee pathology
- Title(参考訳): 一般化型膝関節症に対するマルチモーダル視覚基盤モデル
- Authors: Kang Yu, Dingyu Wang, Zimu Yuan, Nan Zhou, Jiajun Liu, Jiaxin Liu, Shanggui Liu, Yaoyan Zheng, Huishu Yuan, Di Huang, Dong Jiang,
- Abstract要約: 筋骨格障害は、医療画像の正確な解釈に対する緊急の要求である。
現在の整形外科における人工知能のアプローチは、タスク固有の教師あり学習パラダイムに依存している。
筋骨格病理学に最適化されたマルチモーダル視覚基盤モデルOrthoFoundationを紹介する。
- 参考スコア(独自算出の注目度): 40.03838145472935
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Musculoskeletal disorders represent a leading cause of global disability, creating an urgent demand for precise interpretation of medical imaging. Current artificial intelligence (AI) approaches in orthopedics predominantly rely on task-specific, supervised learning paradigms. These methods are inherently fragmented, require extensive annotated datasets, and often lack generalizability across different modalities and clinical scenarios. The development of foundation models in this field has been constrained by the scarcity of large-scale, curated, and open-source musculoskeletal datasets. To address these challenges, we introduce OrthoFoundation, a multimodal vision foundation model optimized for musculoskeletal pathology. We constructed a pre-training dataset of 1.2 million unlabeled knee X-ray and MRI images from internal and public databases. Utilizing a Dinov3 backbone, the model was trained via self-supervised contrastive learning to capture robust radiological representations. OrthoFoundation achieves state-of-the-art (SOTA) performance across 14 downstream tasks. It attained superior accuracy in X-ray osteoarthritis diagnosis and ranked first in MRI structural injury detection. The model demonstrated remarkable label efficiency, matching supervised baselines using only 50% of labeled data. Furthermore, despite being pre-trained on knee images, OrthoFoundation exhibited exceptional cross-anatomy generalization to the hip, shoulder, and ankle. OrthoFoundation represents a significant advancement toward general-purpose AI for musculoskeletal imaging. By learning fundamental, joint-agnostic radiological semantics from large-scale multimodal data, it overcomes the limitations of conventional models, which provides a robust framework for reducing annotation burdens and enhancing diagnostic accuracy in clinical practice.
- Abstract(参考訳): 筋骨格障害は、世界的な障害の主要な原因であり、医療画像の正確な解釈に対する緊急の要求を生み出している。
整形外科における現在の人工知能(AI)アプローチは、主にタスク固有の教師付き学習パラダイムに依存している。
これらの手法は本質的に断片化されており、広範囲の注釈付きデータセットを必要とする。
この分野での基礎モデルの開発は、大規模な、キュレートされた、オープンソースの筋肉骨格データセットの不足によって制約されている。
これらの課題に対処するために,筋骨格病理学に最適化されたマルチモーダル視覚基盤モデルOrthoFoundationを紹介した。
内外のデータベースから120万個の膝X線画像とMRI画像の事前学習データセットを構築した。
Dinov3のバックボーンを利用して、このモデルは自己教師付きコントラスト学習を用いて、堅牢な放射線学的表現をキャプチャするために訓練された。
OrthoFoundationは14のダウンストリームタスクにわたって、最先端(SOTA)のパフォーマンスを達成する。
X線による変形性関節症の診断では精度が向上し,MRIによる構造的外傷検出では第1位となった。
このモデルは、ラベル付きデータの50%しか使用せず、教師付きベースラインにマッチする顕著なラベル効率を示した。
さらに, 膝画像を事前訓練したにもかかわらず, 股関節, 肩, 足首に異常な解剖学的一般化を認めた。
OrthoFoundationは筋骨格イメージングのための汎用AIに向けた重要な進歩である。
大規模マルチモーダルデータから基本的・共同診断的放射線学的セマンティクスを学習することにより、従来のモデルの限界を克服し、診断の負担を軽減し、臨床実践における診断精度を高めるための堅牢な枠組みを提供する。
関連論文リスト
- Self-Supervised Cross-Encoder for Neurodegenerative Disease Diagnosis [6.226851122403944]
縦型MRIスキャンにおける時間的連続性を利用した自己監督型クロスエンコーダフレームワークを提案する。
このフレームワークは、学習した表現を2つのコンポーネントに分解する: 静的表現は、対照的な学習によって制約され、安定した解剖学的特徴を捉え、動的表現は、時間的変化を反映する入力漸進正規化によってガイドされる。
アルツハイマー病神経画像イニシアチブデータセットの実験結果から,本手法は分類精度が向上し,解釈性が向上することが示された。
論文 参考訳(メタデータ) (2025-09-09T11:52:24Z) - Demographic-aware fine-grained classification of pediatric wrist fractures [4.309673738288069]
コンピュータビジョンは、広範囲なデータセットの利用可能性に応じて、有望な道を示す。
本研究は,患者メタデータをX線で融合させ,個別の微細なデータセットから重みを生かした,微細な認識タスクとしてフレーミングする多面的アプローチを用いてこの問題に対処する。
その結果, 微粒化トランスフォーマーアプローチ, 微粒化事前トレーニング, メタデータ統合を組み合わせることで, 小型のカスタムキュレートデータセットでは2%, 大きめのフラクチャーデータセットでは10%以上の診断精度が向上することがわかった。
論文 参考訳(メタデータ) (2025-07-17T10:03:57Z) - Improving Generalization in MRI-Based Deep Learning Models for Total Knee Replacement Prediction [0.6384218409986929]
バッチ正規化をインスタンス正規化に置き換え、データ拡張を使用し、コントラスト損失を適用することにより、一般化が向上することを示す。
トレーニングと評価のために,OAIデータベースを用いたMRIデータを用いた。
論文 参考訳(メタデータ) (2025-04-27T11:41:19Z) - Self-supervised vision-langage alignment of deep learning representations for bone X-rays analysis [53.809054774037214]
本稿では, 骨X線とフレンチレポートを組み合わせることで, 視覚言語による事前訓練を活用することを提案する。
骨X線表現にまつわる埋め込み空間を形成するために、フランスの報告を統合する最初の研究である。
論文 参考訳(メタデータ) (2024-05-14T19:53:20Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - UniBrain: Universal Brain MRI Diagnosis with Hierarchical
Knowledge-enhanced Pre-training [66.16134293168535]
我々はUniBrainと呼ばれるユニバーサル脳MRI診断のための階層的知識強化事前訓練フレームワークを提案する。
具体的には、UniBrainは、定期的な診断から24,770のイメージレポートペアの大規模なデータセットを活用する。
論文 参考訳(メタデータ) (2023-09-13T09:22:49Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。