論文の概要: Leveraging the Structure of Medical Data for Improved Representation Learning
- arxiv url: http://arxiv.org/abs/2507.02987v2
- Date: Wed, 09 Jul 2025 19:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 14:32:08.276698
- Title: Leveraging the Structure of Medical Data for Improved Representation Learning
- Title(参考訳): 医用データの構造を活用した表現学習
- Authors: Andrea Agostini, Sonia Laguna, Alain Ryser, Samuel Ruiperez-Campillo, Moritz Vandenhirtz, Nicolas Deperrois, Farhad Nooralahzadeh, Michael Krauthammer, Thomas M. Sutter, Julia E. Vogt,
- Abstract要約: 一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
教師付き目標やベースラインが構造を生かさずにトレーニングされているのに比べ、強いパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 12.175375511821352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building generalizable medical AI systems requires pretraining strategies that are data-efficient and domain-aware. Unlike internet-scale corpora, clinical datasets such as MIMIC-CXR offer limited image counts and scarce annotations, but exhibit rich internal structure through multi-view imaging. We propose a self-supervised framework that leverages the inherent structure of medical datasets. Specifically, we treat paired chest X-rays (i.e., frontal and lateral views) as natural positive pairs, learning to reconstruct each view from sparse patches while aligning their latent embeddings. Our method requires no textual supervision and produces informative representations. Evaluated on MIMIC-CXR, we show strong performance compared to supervised objectives and baselines being trained without leveraging structure. This work provides a lightweight, modality-agnostic blueprint for domain-specific pretraining where data is structured but scarce
- Abstract(参考訳): 一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
インターネットスケールのコーパスとは異なり、MIMIC-CXRのような臨床データセットは限られた画像数と少ないアノテーションを提供するが、マルチビューイメージングによる内部構造は豊富である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
具体的には,両胸部X線(前頭側,側方)を自然な正の対として扱う。
本手法では,テキスト管理を必要とせず,情報表現を生成する。
MIMIC-CXRで評価したところ、教師付き目標やベースラインが構造を生かさずに訓練されるのに比べ、高い性能を示した。
この研究は、データが構造化されているが不足しているドメイン固有の事前訓練のための軽量でモダリティに依存しない青写真を提供する。
関連論文リスト
- Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein [18.696258519327095]
本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。
提案手法は,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前訓練したCLIPを採用している。
これまでで最大の肺動脈ベインCTデータセットである局所的データセットを用いて,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2025-01-07T12:03:02Z) - Representation Learning of Structured Data for Medical Foundation Models [29.10129199884847]
我々はUniStructアーキテクチャを導入し、構造化されていないテキストと構造化データのマルチモーダル医療基盤モデルを設計する。
本手法は,広範囲な内部医療データベースと構造化医療記録の公開リポジトリのモデル事前学習を通じて検証される。
論文 参考訳(メタデータ) (2024-10-17T09:02:28Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MedContext: Learning Contextual Cues for Efficient Volumetric Medical Segmentation [25.74088298769155]
医用3次元セグメンテーションのためのユニバーサルトレーニングフレームワークMedContextを提案する。
本手法は,教師付きボクセルセグメンテーションタスクと協調して,自己教師付きコンテキストキューを効果的に学習する。
MedContextの有効性は、複数の3D医療データセットと4つの最先端モデルアーキテクチャで検証されている。
論文 参考訳(メタデータ) (2024-02-27T17:58:05Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Breaking with Fixed Set Pathology Recognition through Report-Guided
Contrastive Training [23.506879497561712]
我々は、非構造化医療報告から直接概念を学ぶために、対照的なグローバルローカルなデュアルエンコーダアーキテクチャを採用している。
疾患分類のための大規模胸部X線データセットMIMIC-CXR,CheXpert,ChestX-Ray14について検討した。
論文 参考訳(メタデータ) (2022-05-14T21:44:05Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。