論文の概要: MedSapiens: Taking a Pose to Rethink Medical Imaging Landmark Detection
- arxiv url: http://arxiv.org/abs/2511.04255v1
- Date: Thu, 06 Nov 2025 10:45:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.393309
- Title: MedSapiens: Taking a Pose to Rethink Medical Imaging Landmark Detection
- Title(参考訳): MedSapiens:医療画像のランドマーク検出を再考する
- Authors: Marawan Elbatel, Anbang Wang, Keyuan Liu, Kaouther Mouheb, Enrique Almar-Munoz, Lizhuo Lin, Yanqi Yang, Karim Lekadir, Xiaomeng Li,
- Abstract要約: 本稿では,医用画像における解剖学的ランドマーク検出のための人中心基盤モデルの適用という,基本的な見落としのベースラインを再考する。
ポーズ推定を目的とした人中心基礎モデルであるサピエンスを,マルチデータセット事前トレーニングによる医用画像に適応させる方法について検討した。
提案モデルであるMedSapiensは,人中心の基盤モデルが本質的に空間的ポーズの局所化に最適化され,解剖学的ランドマーク検出に強い先行性をもたらすことを示した。
- 参考スコア(独自算出の注目度): 9.248236271870558
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper does not introduce a novel architecture; instead, it revisits a fundamental yet overlooked baseline: adapting human-centric foundation models for anatomical landmark detection in medical imaging. While landmark detection has traditionally relied on domain-specific models, the emergence of large-scale pre-trained vision models presents new opportunities. In this study, we investigate the adaptation of Sapiens, a human-centric foundation model designed for pose estimation, to medical imaging through multi-dataset pretraining, establishing a new state of the art across multiple datasets. Our proposed model, MedSapiens, demonstrates that human-centric foundation models, inherently optimized for spatial pose localization, provide strong priors for anatomical landmark detection, yet this potential has remained largely untapped. We benchmark MedSapiens against existing state-of-the-art models, achieving up to 5.26% improvement over generalist models and up to 21.81% improvement over specialist models in the average success detection rate (SDR). To further assess MedSapiens adaptability to novel downstream tasks with few annotations, we evaluate its performance in limited-data settings, achieving 2.69% improvement over the few-shot state of the art in SDR. Code and model weights are available at https://github.com/xmed-lab/MedSapiens .
- Abstract(参考訳): 本論文は, 新規なアーキテクチャを導入せず, 医用画像の解剖学的ランドマーク検出に人間中心の基礎モデルを適用するという, 基本的な見落としのベースラインを再考する。
ランドマーク検出は伝統的にドメイン固有のモデルに依存してきたが、大規模な事前訓練された視覚モデルの出現は新たな機会をもたらす。
本研究では,ポーズ推定を目的とした人中心基盤モデルであるSapiensの,マルチデータセット事前トレーニングによる医用画像への適応について検討し,複数のデータセットにまたがる新たな最先端技術を確立した。
提案したモデルであるMedSapiensは、人中心の基盤モデルが本質的に空間的ポーズの局所化に最適化され、解剖学的ランドマークの検出に強い先行性を提供することを示した。
我々は、既存の最先端モデルに対してMedSapiensをベンチマークし、ジェネラリストモデルよりも最大5.26%改善し、スペシャリストモデルよりも最大21.81%改善した。
MedSapiensの新規な下流タスクへの適応性をアノテーションが少なく評価するために、制限されたデータ設定での性能を評価し、SDRにおける数ショットの最先端よりも2.69%改善した。
コードとモデルの重み付けはhttps://github.com/xmed-lab/MedSapiens で確認できる。
関連論文リスト
- MedDChest: A Content-Aware Multimodal Foundational Vision Model for Thoracic Imaging [3.0332210076508326]
我々は胸部画像に特化して最適化された新しい基礎的視覚変換器(ViT)モデルであるMedDChestを提案する。
われわれはMedDChestを、120万枚以上の画像からなる大規模でキュレートされたマルチモーダルデータセットでゼロからトレーニングした。
我々は、下流の様々な診断タスクを微調整することで、モデルの有効性を検証する。
論文 参考訳(メタデータ) (2025-11-06T03:28:56Z) - Region-Aware Reconstruction Strategy for Pre-training fMRI Foundation Model [0.7771985426812056]
我々は,自己指導型事前訓練中に,意味的コヒーレントな脳領域を選択的にマスキングするためのROI誘導マスキング戦略を導入する。
本手法はADHDと診断された個人から健康的なコントロールを識別するための分類精度が4.23%向上したことを示す。
以上の結果から, モデル前訓練における解剖学的領域のマスキングは, 解釈可能性を高めるだけでなく, より堅牢で差別的な表現をもたらすことが示唆された。
論文 参考訳(メタデータ) (2025-11-01T08:12:00Z) - Atlas: A Novel Pathology Foundation Model by Mayo Clinic, Charité, and Aignostics [61.0008867391683]
本稿では,RudolfVアプローチに基づく新しい視覚基盤モデルであるAtlasを紹介する。
本モデルでは、120万の病理組織像からなるデータセットを用いてトレーニングを行った。
論文 参考訳(メタデータ) (2025-01-09T18:06:45Z) - Synthetic Augmentation for Anatomical Landmark Localization using DDPMs [0.22499166814992436]
拡散型生成モデルは近年,高品質な合成画像を生成する能力に注目が集まっている。
ランドマークマッチングのためのマルコフランダムフィールド(MRF)モデルと統計的形状モデル(SSM)を用いて,生成画像の品質を評価する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-16T12:09:38Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - MedFMC: A Real-world Dataset and Benchmark For Foundation Model
Adaptation in Medical Image Classification [41.16626194300303]
ファンデーションモデルは、多くの場合、大規模なデータで事前訓練されているが、様々なビジョンや言語アプリケーションのジャンプ開始において、最も成功している。
最近の進歩により、下流タスクにおける基礎モデルの適応は、少数のトレーニングサンプルだけで効率的に行えるようになった。
しかし, 医用画像解析におけるそのような学習パラダイムの適用は, 一般に公開されているデータやベンチマークが不足しているため, 依然として少ない。
論文 参考訳(メタデータ) (2023-06-16T01:46:07Z) - Anatomy-guided domain adaptation for 3D in-bed human pose estimation [62.3463429269385]
3次元人間のポーズ推定は臨床モニタリングシステムにおいて重要な要素である。
ラベル付きソースからシフトしたラベル付きターゲットドメインにモデルを適応させる新しいドメイン適応方式を提案する。
我々の手法は、様々な最先端のドメイン適応法より一貫して優れています。
論文 参考訳(メタデータ) (2022-11-22T11:34:51Z) - Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for
Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。
胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。
本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文 参考訳(メタデータ) (2021-02-26T02:29:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。