論文の概要: MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities
- arxiv url: http://arxiv.org/abs/2511.20650v1
- Date: Tue, 25 Nov 2025 18:59:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.649532
- Title: MedROV: Towards Real-Time Open-Vocabulary Detection Across Diverse Medical Imaging Modalities
- Title(参考訳): MedROV: 様々な医療画像モダリティにおけるリアルタイムオープンボキャブラリ検出を目指して
- Authors: Tooba Tehreem Sheikh, Jean Lahoud, Rao Muhammad Anwer, Fahad Shahbaz Khan, Salman Khan, Hisham Cholakkal,
- Abstract要約: 医用画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを紹介する。
対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
- 参考スコア(独自算出の注目度): 89.81463562506637
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Traditional object detection models in medical imaging operate within a closed-set paradigm, limiting their ability to detect objects of novel labels. Open-vocabulary object detection (OVOD) addresses this limitation but remains underexplored in medical imaging due to dataset scarcity and weak text-image alignment. To bridge this gap, we introduce MedROV, the first Real-time Open Vocabulary detection model for medical imaging. To enable open-vocabulary learning, we curate a large-scale dataset, Omnis, with 600K detection samples across nine imaging modalities and introduce a pseudo-labeling strategy to handle missing annotations from multi-source datasets. Additionally, we enhance generalization by incorporating knowledge from a large pre-trained foundation model. By leveraging contrastive learning and cross-modal representations, MedROV effectively detects both known and novel structures. Experimental results demonstrate that MedROV outperforms the previous state-of-the-art foundation model for medical image detection with an average absolute improvement of 40 mAP50, and surpasses closed-set detectors by more than 3 mAP50, while running at 70 FPS, setting a new benchmark in medical detection. Our source code, dataset, and trained model are available at https://github.com/toobatehreem/MedROV.
- Abstract(参考訳): 医用画像における従来の物体検出モデルは、クローズドセットのパラダイム内で動作し、新しいラベルの物体を検出する能力を制限する。
オープンボキャブラリオブジェクト検出(OVOD)は、この制限に対処するが、データセットの不足と弱いテキストイメージアライメントのため、医用画像では未探索のままである。
このギャップを埋めるために、医療画像のための最初のリアルタイムオープン語彙検出モデルであるMedROVを導入する。
オープンボキャブラリ学習を実現するため,9つの画像モダリティにわたる600K検出サンプルを備えた大規模データセットOmnisをキュレートし,マルチソースデータセットから欠落したアノテーションを扱うための擬似ラベル方式を導入する。
さらに,大規模な事前学習基盤モデルから知識を取り入れることで,一般化の促進を図る。
対照的な学習とクロスモーダル表現を活用することで、MedROVは既知の構造と新しい構造の両方を効果的に検出する。
実験結果から,MedROVは,40mAP50の絶対的改善を達成し,70FPSで動作しながらクローズドセット検出器を3mAP50以上超え,医用画像検出の新たなベンチマークを設定した。
ソースコード、データセット、トレーニングされたモデルはhttps://github.com/toobatehreem/MedROV.comで公開されています。
関連論文リスト
- MedFuncta: A Unified Framework for Learning Efficient Medical Neural Fields [17.156760213520055]
各種医療信号の大規模NFトレーニングのための統合フレームワークであるMedFunctaを紹介する。
我々のアプローチはデータを統一表現、すなわち1D潜在ベクトルにエンコードし、共有されたメタ学習NFを変調する。
私たちはコード、モデルウェイト、およびマルチインスタンス医療NFのための500k以上の潜伏ベクトルを含む最初の大規模データセットMedNFをリリースしました。
論文 参考訳(メタデータ) (2025-02-20T09:38:13Z) - UniMed-CLIP: Towards a Unified Image-Text Pretraining Paradigm for Diverse Medical Imaging Modalities [68.12889379702824]
対照的な学習によって訓練された視覚言語モデル(VLM)は、自然画像タスクにおいて顕著な成功を収めた。
UniMedは530万以上の画像テキストペアからなる、大規模でオープンソースのマルチモーダル医療データセットである。
我々は、6つのモダリティのための統一VLMであるUniMed-CLIPを訓練し、ゼロショット評価において顕著な利益を得た。
論文 参考訳(メタデータ) (2024-12-13T18:59:40Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。