論文の概要: LLM-Guided Diagnostic Evidence Alignment for Medical Vision-Language Pretraining under Limited Pairing
- arxiv url: http://arxiv.org/abs/2602.07540v1
- Date: Sat, 07 Feb 2026 13:29:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.680084
- Title: LLM-Guided Diagnostic Evidence Alignment for Medical Vision-Language Pretraining under Limited Pairing
- Title(参考訳): LLMガイドによる医用視力訓練のための診断的アライメント
- Authors: Huimin Yan, Liang Bai, Xian Yang, Long Chen,
- Abstract要約: 既存のCLIPスタイルの医療ビジョン-言語事前訓練法は、大域的または局所的なアライメントと実質的なペアデータに依存している。
本研究では, 事前学習目標をエビデンスレベルのアライメントにシフトさせるため, LLMガイドによる診断エビデンスアライメント手法を提案する。
本手法は,句のグラウンド化,画像テキスト検索,ゼロショット分類において,一貫した,重要な改善を実現する。
- 参考スコア(独自算出の注目度): 15.915746496281079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most existing CLIP-style medical vision--language pretraining methods rely on global or local alignment with substantial paired data. However, global alignment is easily dominated by non-diagnostic information, while local alignment fails to integrate key diagnostic evidence. As a result, learning reliable diagnostic representations becomes difficult, which limits their applicability in medical scenarios with limited paired data. To address this issue, we propose an LLM-Guided Diagnostic Evidence Alignment method (LGDEA), which shifts the pretraining objective toward evidence-level alignment that is more consistent with the medical diagnostic process. Specifically, we leverage LLMs to extract key diagnostic evidence from radiology reports and construct a shared diagnostic evidence space, enabling evidence-aware cross-modal alignment and allowing LGDEA to effectively exploit abundant unpaired medical images and reports, thereby substantially alleviating the reliance on paired data. Extensive experimental results demonstrate that our method achieves consistent and significant improvements on phrase grounding, image--text retrieval, and zero-shot classification, and even rivals pretraining methods that rely on substantial paired data.
- Abstract(参考訳): 既存のCLIPスタイルの医療ビジョン-言語事前訓練法は、大域的または局所的なアライメントと実質的なペアデータに依存している。
しかし、グローバルアライメントは非診断情報によって容易に支配され、局所アライメントは重要な診断証拠の統合に失敗する。
その結果、信頼性のある診断表現の学習は困難となり、医学的シナリオにおいて、限られたペアデータによる適用性が制限される。
この問題に対処するため,医学的診断プロセスとより整合したエビデンスレベルのアライメントに向けて,事前学習目標をシフトさせるLGDEA (LLM-Guided Diagnostic Evidence Alignment Method) を提案する。
具体的には、LSMを利用して、放射線診断レポートから重要な診断証拠を抽出し、共有診断証拠空間を構築し、エビデンスを意識したクロスモーダルアライメントを可能にし、LGDEAが豊富な未ペア医療画像やレポートを効果的に活用できるようにし、ペア化されたデータへの依存を大幅に緩和する。
大規模な実験結果から,提案手法は句のグラウンド化,画像テキスト検索,ゼロショット分類において一貫した,重要な改善を実現している。
関連論文リスト
- Timely Clinical Diagnosis through Active Test Selection [49.091903570068155]
本稿では,現実の診断推論をよりうまくエミュレートするためのACTMED (Adaptive Clinical Test selection via Model-based Experimental Design)を提案する。
LLMは柔軟なシミュレータとして機能し、構造化されたタスク固有のトレーニングデータを必要とせずに、患者状態のもっともらしい分布を生成し、信念の更新をサポートする。
我々は、実世界のデータセット上でACTMEDを評価し、診断精度、解釈可能性、リソース使用量を改善するためにテスト選択を最適化できることを示す。
論文 参考訳(メタデータ) (2025-10-21T18:10:45Z) - H-DDx: A Hierarchical Evaluation Framework for Differential Diagnosis [33.11853966969629]
臨床関係をよりよく反映した階層的評価フレームワークであるH-DDxを紹介する。
ベンチマーク22の先行モデルにおいて,従来の平坦な指標は臨床的に有意なアウトプットを見落とし,性能を過小評価することを示した。
枠組みは階層的エラーパターンを明らかにすることで解釈可能性を高め,正確な診断を見逃しても,LLMがより広い臨床コンテキストを正しく識別できることが証明された。
論文 参考訳(メタデータ) (2025-10-04T06:42:22Z) - End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning [52.12425911708585]
Deep-DxSearchは、強化学習(RL)でエンドツーエンドに訓練されたエージェントRAGシステムである。
Deep-DxSearchでは,患者記録と信頼性のある医療知識情報を含む大規模医療検索コーパスを構築した。
実験により、エンドツーエンドのRLトレーニングフレームワークは、プロンプトエンジニアリングやトレーニングフリーなRAGアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2025-08-21T17:42:47Z) - LLM-Driven Medical Document Analysis: Enhancing Trustworthy Pathology and Differential Diagnosis [13.435898630240416]
低ランク適応を用いてLLaMA-v3を微調整する信頼性の高い医療文書分析プラットフォームを提案する。
本手法は差分診断のための最大のベンチマークデータセットであるDDXPlusを利用する。
開発したWebベースのプラットフォームでは、ユーザは独自の構造化されていない医療文書を提出し、正確な説明可能な診断結果を受け取ることができる。
論文 参考訳(メタデータ) (2025-06-24T15:12:42Z) - Test-Time-Scaling for Zero-Shot Diagnosis with Visual-Language Reasoning [37.37330596550283]
視覚言語モデルを用いた信頼性のある医用画像診断のためのフレームワークを提案する。
テストタイムスケーリング戦略は、複数の候補出力を信頼性のある最終診断に集約する。
様々な医用画像モダリティにまたがるアプローチを評価する。
論文 参考訳(メタデータ) (2025-06-11T22:23:38Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Towards Reducing Diagnostic Errors with Interpretable Risk Prediction [18.474645862061426]
特定診断のリスクの増大または低下を示す患者EHRデータ中の証拠片をLCMを用いて同定する方法を提案する。
私たちの究極の目標は、証拠へのアクセスを増やし、診断エラーを減らすことです。
論文 参考訳(メタデータ) (2024-02-15T17:05:48Z) - Improving Multiple Sclerosis Lesion Segmentation Across Clinical Sites:
A Federated Learning Approach with Noise-Resilient Training [75.40980802817349]
深層学習モデルは、自動的にMS病変を分節する約束を示しているが、正確な注釈付きデータの不足は、この分野の進歩を妨げている。
我々は,MS病変の不均衡分布とファジィ境界を考慮したDecoupled Hard Label Correction(DHLC)戦略を導入する。
また,集約型中央モデルを利用したCELC(Centrally Enhanced Label Correction)戦略も導入した。
論文 参考訳(メタデータ) (2023-08-31T00:36:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。