論文の概要: Structure is Supervision: Multiview Masked Autoencoders for Radiology
- arxiv url: http://arxiv.org/abs/2511.22294v1
- Date: Thu, 27 Nov 2025 10:20:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.507492
- Title: Structure is Supervision: Multiview Masked Autoencoders for Radiology
- Title(参考訳): 構造はスーパービジョン:マルチビューマスクオートエンコーダ
- Authors: Sonia Laguna, Andrea Agostini, Alain Ryser, Samuel Ruiperez-Campillo, Irene Cannistraci, Moritz Vandenhirtz, Stephan Mandt, Nicolas Deperrois, Farhad Nooralahzadeh, Michael Krauthammer, Thomas M. Sutter, Julia E. Vogt,
- Abstract要約: 堅牢な医療機械学習システムを構築するには、臨床データに存在する本質的な構造を利用する事前訓練戦略が必要である。
MVMAE(Multiview Masked Autoencoder)は、ビュー不変および疾患関連表現を学習する自己教師型フレームワークである。
MVMAE-V2Tは,放射線学報告を補助的テキストベース学習信号として組み込んだ手法である。
- 参考スコア(独自算出の注目度): 30.875117640663024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building robust medical machine learning systems requires pretraining strategies that exploit the intrinsic structure present in clinical data. We introduce Multiview Masked Autoencoder (MVMAE), a self-supervised framework that leverages the natural multi-view organization of radiology studies to learn view-invariant and disease-relevant representations. MVMAE combines masked image reconstruction with cross-view alignment, transforming clinical redundancy across projections into a powerful self-supervisory signal. We further extend this approach with MVMAE-V2T, which incorporates radiology reports as an auxiliary text-based learning signal to enhance semantic grounding while preserving fully vision-based inference. Evaluated on a downstream disease classification task on three large-scale public datasets, MIMIC-CXR, CheXpert, and PadChest, MVMAE consistently outperforms supervised and vision-language baselines. Furthermore, MVMAE-V2T provides additional gains, particularly in low-label regimes where structured textual supervision is most beneficial. Together, these results establish the importance of structural and textual supervision as complementary paths toward scalable, clinically grounded medical foundation models.
- Abstract(参考訳): 堅牢な医療機械学習システムを構築するには、臨床データに存在する本質的な構造を利用する事前訓練戦略が必要である。
MVMAE(Multiview Masked Autoencoder)は、放射線学研究の自然的多視点構造を利用して、ビュー不変および疾患関連表現を学習する自己教師型フレームワークである。
MVMAEは、マスクされた画像再構成とクロスビューアライメントを組み合わせることで、プロジェクション間の臨床的冗長性を強力なセルフスーパーバイザ信号に変換する。
MVMAE-V2Tによりこのアプローチをさらに拡張し、完全視覚に基づく推論を保ちながらセマンティックグラウンドを強化するための補助的なテキストベース学習信号としてラジオロジーレポートを組み込んだ。
MVMAEは、MIMIC-CXR、CheXpert、PadChestの3つの大規模パブリックデータセットの下流疾患分類タスクに基づいて評価され、教師付きおよびビジョン言語ベースラインを一貫して上回る。
さらに、MVMAE-V2Tは、特に構造化テキスト管理が最も有用である低ラベル体制において、さらなる利益をもたらす。
これらの結果は、スケーラブルで臨床的に基礎付けられた医療基盤モデルへの補完パスとして、構造的およびテキスト的監督の重要性を確立している。
関連論文リスト
- Learning from the Right Patches: A Two-Stage Wavelet-Driven Masked Autoencoder for Histopathology Representation Learning [4.281508114645598]
全スライド画像はデジタル病理の中心であるが、その極端の大きさとアノテーションが不足しているため、自己指導型学習が不可欠である。
本稿では,ウェーブレットインフォームドパッチ選択戦略を通じて,MAEに基づく学習に構造と生物学的関連性をもたらす枠組みを提案する。
WISE-MAEは、弱い監督下で効率を保ちながら、競争力のある表現品質と下流分類性能を実現する。
論文 参考訳(メタデータ) (2025-11-10T11:06:25Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - Leveraging the Structure of Medical Data for Improved Representation Learning [12.175375511821352]
一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
教師付き目標やベースラインが構造を生かさずにトレーニングされているのに比べ、強いパフォーマンスを示します。
論文 参考訳(メタデータ) (2025-07-01T11:14:45Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - Learning Multiscale Consistency for Self-supervised Electron Microscopy
Instance Segmentation [48.267001230607306]
本稿では,EMボリュームのマルチスケール一貫性を高める事前学習フレームワークを提案する。
当社のアプローチでは,強力なデータ拡張と弱いデータ拡張を統合することで,Siameseネットワークアーキテクチャを活用している。
効果的にボクセルと機能の一貫性をキャプチャし、EM分析のための転送可能な表現を学習する。
論文 参考訳(メタデータ) (2023-08-19T05:49:13Z) - SIM-Trans: Structure Information Modeling Transformer for Fine-grained
Visual Categorization [59.732036564862796]
本稿では,オブジェクト構造情報を変換器に組み込んだSIM-Trans(Structure Information Modeling Transformer)を提案する。
提案した2つのモジュールは軽量化されており、任意のトランスフォーマーネットワークにプラグインでき、エンドツーエンドで容易に訓練できる。
実験と解析により,提案したSIM-Transが細粒度視覚分類ベンチマークの最先端性能を達成することを示した。
論文 参考訳(メタデータ) (2022-08-31T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。