論文の概要: PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM
- arxiv url: http://arxiv.org/abs/2602.23297v1
- Date: Thu, 26 Feb 2026 18:07:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.833076
- Title: PRIMA: Pre-training with Risk-integrated Image-Metadata Alignment for Medical Diagnosis via LLM
- Title(参考訳): PRIMA:LSMによる画像診断のためのリスク統合型画像アライメントによる事前トレーニング
- Authors: Yiqing Wang, Chunming He, Ming-Chen Lu, Mercy Pawar, Leslie Niziol, Maria Woodward, Sina Farsiu,
- Abstract要約: PRIMAはドメイン固有の知識をマルチモーダル表現学習に統合するフレームワークである。
我々のフレームワークは、膨大なデータ収集や網羅的な計算資源を必要とせずに、優れた堅牢性を実現する。
- 参考スコア(独自算出の注目度): 9.229938448766484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Medical diagnosis requires the effective synthesis of visual manifestations and clinical metadata. However, existing methods often treat metadata as isolated tags, failing to exploit the rich semantic knowledge embedded in clinical descriptions. We propose PRIMA (Pre-training with Risk-integrated Image-Metadata Alignment), a framework that integrates domain-specific knowledge into multi-modal representation learning. We first curate an expert corpus of risk-disease correlations via Retrieval-Augmented Generation (RAG) to refine Clinical ModernBERT, embedding diagnostic priors into the text encoder. To bridge the modality gap, we introduce a dual-encoder pre-training strategy utilizing DINOv3 and our refined BERT, optimized by a suite of four complementary loss functions. These losses are designed to capture multi-granular semantic alignment and handle the ambiguity of clinical correlations through soft labels. Finally, we leverage Qwen-3 to fuse these aligned features for precise disease classification. Extensive experiments demonstrate that PRIMA effectively harmonizes pixel-level features with abstract clinical expertise, significantly outperforming other state-of-the-art methods. Notably, our framework achieves superior robustness without the need for massive data collection or exhaustive computational resources. Our code will be made public upon acceptance.
- Abstract(参考訳): 診断には、視覚症状と臨床メタデータを効果的に合成する必要がある。
しかし、既存の手法はメタデータを孤立したタグとして扱うことが多く、臨床記述に埋め込まれた豊富な意味知識を活用できない。
PRIMA(Pre-training with Risk-integrated Image-Metadata Alignment)は,ドメイン固有の知識をマルチモーダル表現学習に統合するフレームワークである。
まず, 臨床用ModernBERTを改良し, 診断先行情報をテキストエンコーダに埋め込むために, Retrieval-Augmented Generation (RAG)を介して, リスク・ディスリーズ相関の専門コーパスをキュレートする。
モダリティギャップを埋めるために、DINOv3と改良されたBERTを利用するデュアルエンコーダ事前学習戦略を導入し、4つの相補的損失関数の組で最適化した。
これらの損失は、多粒質のセマンティックアライメントを捕捉し、ソフトラベルによる臨床相関のあいまいさを扱うように設計されている。
最後に,Qwen-3を用いてこれらの特徴を融合し,正確な疾患分類を行う。
広汎な実験により、PRIMAはピクセルレベルの特徴と抽象的な臨床的専門知識とを効果的に調和させ、他の最先端の手法を著しく上回ることを示した。
特に,大規模なデータ収集や網羅的な計算資源を必要とせず,優れたロバスト性を実現する。
私たちのコードは受け入れ次第公開します。
関連論文リスト
- A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - PriorRG: Prior-Guided Contrastive Pre-training and Coarse-to-Fine Decoding for Chest X-ray Report Generation [12.860257420677122]
PriorRGは胸部X線レポート生成フレームワークで、2段階のトレーニングパイプラインを通じて実際の臨床をエミュレートする。
ステージ1では,臨床文脈の時間的特徴抽出を利用した事前指導型コントラスト事前訓練方式を導入する。
ステージ2では、視覚エンコーダの隠蔽状態との事前知識を高めるために、事前認識された粗時間デコーディングを統合する。
論文 参考訳(メタデータ) (2025-08-07T13:02:20Z) - CLARIFID: Improving Radiology Report Generation by Reinforcing Clinically Accurate Impressions and Enforcing Detailed Findings [1.515687944002438]
専門家の2段階のワークフローを反映して診断精度を直接最適化する新しいフレームワークであるCLARIFIDを提案する。
CLARIFIDは、セクション認識事前学習を通じて、FundingsからImpressionへの論理フローを学習する。
本手法は,NLGの基準値と臨床意識スコアの両方において,優れた臨床効果を達成し,既存の基準値よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-07-23T05:57:59Z) - Towards Accurate and Interpretable Neuroblastoma Diagnosis via Contrastive Multi-scale Pathological Image Analysis [16.268045905735818]
病理画像分類に適したコントラスト学習に基づくマルチスケール機能融合モデルであるCMSwinKANを提案する。
マルチスケールの特徴を融合させ、対照的な学習戦略を活用することで、CMSwinKANは臨床医の包括的なアプローチを模倣する。
その結果、CMSwinKANは、既存の最先端の病理モデルよりも、大規模なデータセットで事前訓練されたモデルよりもパフォーマンスがよいことが示された。
論文 参考訳(メタデータ) (2025-04-18T15:39:46Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。