論文の概要: Leveraging the Structure of Medical Data for Improved Representation Learning
- arxiv url: http://arxiv.org/abs/2507.02987v3
- Date: Thu, 24 Jul 2025 12:44:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-25 15:10:41.919178
- Title: Leveraging the Structure of Medical Data for Improved Representation Learning
- Title(参考訳): 医用データの構造を活用した表現学習
- Authors: Andrea Agostini, Sonia Laguna, Alain Ryser, Samuel Ruiperez-Campillo, Moritz Vandenhirtz, Nicolas Deperrois, Farhad Nooralahzadeh, Michael Krauthammer, Thomas M. Sutter, Julia E. Vogt,
- Abstract要約: 一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
教師付き目標やベースラインが構造を生かさずにトレーニングされているのに比べ、強いパフォーマンスを示します。
- 参考スコア(独自算出の注目度): 12.175375511821352
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building generalizable medical AI systems requires pretraining strategies that are data-efficient and domain-aware. Unlike internet-scale corpora, clinical datasets such as MIMIC-CXR offer limited image counts and scarce annotations, but exhibit rich internal structure through multi-view imaging. We propose a self-supervised framework that leverages the inherent structure of medical datasets. Specifically, we treat paired chest X-rays (i.e., frontal and lateral views) as natural positive pairs, learning to reconstruct each view from sparse patches while aligning their latent embeddings. Our method requires no textual supervision and produces informative representations. Evaluated on MIMIC-CXR, we show strong performance compared to supervised objectives and baselines being trained without leveraging structure. This work provides a lightweight, modality-agnostic blueprint for domain-specific pretraining where data is structured but scarce
- Abstract(参考訳): 一般化可能な医療AIシステムを構築するには、データ効率とドメイン認識の事前トレーニング戦略が必要である。
インターネットスケールのコーパスとは異なり、MIMIC-CXRのような臨床データセットは限られた画像数と少ないアノテーションを提供するが、マルチビューイメージングによる内部構造は豊富である。
本稿では,医療データセットの固有構造を利用した自己教師型フレームワークを提案する。
具体的には,両胸部X線(前頭側,側方)を自然な正の対として扱う。
本手法では,テキスト管理を必要とせず,情報表現を生成する。
MIMIC-CXRで評価したところ、教師付き目標やベースラインが構造を生かさずに訓練されるのに比べ、高い性能を示した。
この研究は、データが構造化されているが不足しているドメイン固有の事前訓練のための軽量でモダリティに依存しない青写真を提供する。
関連論文リスト
- Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - Dense Feature Learning via Linear Structure Preservation in Medical Data [30.77691570199694]
医学データのためのディープラーニングモデルは、典型的には、少数の識別方向への表現の崩壊を促すタスク固有の目的を用いて訓練される。
医用埋め込みの線形構造を明示的に形成する表現中心型フレームワークである高密度特徴学習を提案する。
論文 参考訳(メタデータ) (2026-02-07T21:23:35Z) - PULSE: A Unified Multi-Task Architecture for Cardiac Segmentation, Diagnosis, and Few-Shot Cross-Modality Clinical Adaptation [0.27998963147546135]
PULSEは、自己教師付き表現に基づいて構築され、複合的な監視戦略によって最適化されたマルチタスク視覚言語フレームワークである。
マルチスケールトークン再構成デコーダは解剖学的セグメンテーションを可能にし、共有グローバル表現は疾患分類と臨床背景テキスト出力をサポートする。
従来のタスク固有のパイプラインとは異なり、PULSEはタスク不変の心臓前兆を学習し、データセット間で堅牢に一般化し、最小限の監視で新しい画像モダリティに適応することができる。
論文 参考訳(メタデータ) (2025-12-03T14:49:01Z) - Vision Foundry: A System for Training Foundational Vision AI Models [0.0]
Vision FoundryはコードフリーのHIPAA準拠のプラットフォームで、ビジョンモデルの事前トレーニング、適応、デプロイを民主化する。
高度な表現学習と実践的応用のギャップを埋めることで、Vision Foundryはドメインの専門家が最先端の臨床AIツールを開発することを可能にする。
論文 参考訳(メタデータ) (2025-12-03T14:02:22Z) - Structure is Supervision: Multiview Masked Autoencoders for Radiology [30.875117640663024]
堅牢な医療機械学習システムを構築するには、臨床データに存在する本質的な構造を利用する事前訓練戦略が必要である。
MVMAE(Multiview Masked Autoencoder)は、ビュー不変および疾患関連表現を学習する自己教師型フレームワークである。
MVMAE-V2Tは,放射線学報告を補助的テキストベース学習信号として組み込んだ手法である。
論文 参考訳(メタデータ) (2025-11-27T10:20:51Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Knowledge to Sight: Reasoning over Visual Attributes via Knowledge Decomposition for Abnormality Grounding [14.354891415427154]
視覚属性を分解して構造化された監視を行うフレームワークである textbfKnowledge to Sight (K2Sight) を提案する。
従来のレポートレベルの監視とは違って,本手法はドメイン知識と空間構造を明確に橋渡しする。
我々は、最先端医療用VLMに必要なデータのわずか1.5%を用いて、0.23Bと2Bのセマンティックパラメータを持つコンパクトモデルを訓練する。
論文 参考訳(メタデータ) (2025-08-06T15:54:44Z) - Surgical Foundation Model Leveraging Compression and Entropy Maximization for Image-Guided Surgical Assistance [50.486523249499115]
低侵襲手術(MIS)におけるリアルタイム映像理解の重要性
手術ビデオからコンパクトで情報的表現を学習するための,新しい自己教師型フレームワークであるCompress-to-Explore (C2E)を提案する。
C2Eは、エントロピー最大化デコーダを使用して、臨床的に関連する詳細を保持しながら画像を圧縮し、ラベル付きデータなしでエンコーダのパフォーマンスを向上させる。
論文 参考訳(メタデータ) (2025-05-16T14:02:24Z) - Self-adaptive vision-language model for 3D segmentation of pulmonary artery and vein [18.696258519327095]
本稿では,言語誘導型自己適応型クロスアテンション・フュージョン・フレームワークを提案する。
提案手法は,3次元CTスキャンのセグメンテーションを生成するための強力な特徴抽出器として,事前訓練したCLIPを採用している。
これまでで最大の肺動脈ベインCTデータセットである局所的データセットを用いて,本手法を広範囲に検証した。
論文 参考訳(メタデータ) (2025-01-07T12:03:02Z) - Representation Learning of Structured Data for Medical Foundation Models [29.10129199884847]
我々はUniStructアーキテクチャを導入し、構造化されていないテキストと構造化データのマルチモーダル医療基盤モデルを設計する。
本手法は,広範囲な内部医療データベースと構造化医療記録の公開リポジトリのモデル事前学習を通じて検証される。
論文 参考訳(メタデータ) (2024-10-17T09:02:28Z) - Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。
我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文 参考訳(メタデータ) (2024-03-19T03:59:14Z) - MedContext: Learning Contextual Cues for Efficient Volumetric Medical Segmentation [25.74088298769155]
医用3次元セグメンテーションのためのユニバーサルトレーニングフレームワークMedContextを提案する。
本手法は,教師付きボクセルセグメンテーションタスクと協調して,自己教師付きコンテキストキューを効果的に学習する。
MedContextの有効性は、複数の3D医療データセットと4つの最先端モデルアーキテクチャで検証されている。
論文 参考訳(メタデータ) (2024-02-27T17:58:05Z) - Disruptive Autoencoders: Leveraging Low-level features for 3D Medical
Image Pre-training [51.16994853817024]
本研究は、3Dラジオグラフィ画像のための効果的な事前学習フレームワークの設計に焦点をあてる。
ローカルマスキングと低レベルの摂動の組み合わせによって生成された破壊から、オリジナルのイメージを再構築しようとする事前トレーニングフレームワークであるDisruptive Autoencodersを紹介する。
提案する事前トレーニングフレームワークは、複数のダウンストリームタスクでテストされ、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-07-31T17:59:42Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Breaking with Fixed Set Pathology Recognition through Report-Guided
Contrastive Training [23.506879497561712]
我々は、非構造化医療報告から直接概念を学ぶために、対照的なグローバルローカルなデュアルエンコーダアーキテクチャを採用している。
疾患分類のための大規模胸部X線データセットMIMIC-CXR,CheXpert,ChestX-Ray14について検討した。
論文 参考訳(メタデータ) (2022-05-14T21:44:05Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。