論文の概要: Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis
- arxiv url: http://arxiv.org/abs/2505.22079v1
- Date: Wed, 28 May 2025 08:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.478736
- Title: Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis
- Title(参考訳): CLIPを臨床に導入する: ダイナミックソフトラベルと医療分析のための否定学習
- Authors: Hanbin Ko, Chang-Min Park,
- Abstract要約: 臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。
われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 0.9944647907864256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The development of large-scale image-text pair datasets has significantly advanced self-supervised learning in Vision-Language Processing (VLP). However, directly applying general-domain architectures such as CLIP to medical data presents challenges, particularly in handling negations and addressing the inherent data imbalance of medical datasets. To address these issues, we propose a novel approach that integrates clinically-enhanced dynamic soft labels and medical graphical alignment, thereby improving clinical comprehension and the applicability of contrastive loss in medical contexts. Furthermore, we introduce negation-based hard negatives to deepen the model's understanding of the complexities of clinical language. Our approach is easily integrated into the medical CLIP training pipeline and achieves state-of-the-art performance across multiple tasks, including zero-shot, fine-tuned classification, and report retrieval. To comprehensively evaluate our model's capacity for understanding clinical language, we introduce CXR-Align, a benchmark uniquely designed to evaluate the understanding of negation and clinical information within chest X-ray (CXR) datasets. Experimental results demonstrate that our proposed methods are straightforward to implement and generalize effectively across contrastive learning frameworks, enhancing medical VLP capabilities and advancing clinical language understanding in medical imaging.
- Abstract(参考訳): 大規模画像テキストペアデータセットの開発により、視覚言語処理(VLP)における自己教師付き学習が大幅に進歩した。
しかし、CLIPなどの汎用ドメインアーキテクチャを直接医療データに適用することは、特に否定処理や医療データセット固有のデータ不均衡に対処する上で、課題を提起する。
これらの課題に対処するために,臨床応用のダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新たなアプローチを提案する。
さらに,臨床言語の複雑さに対するモデルの理解を深めるため,否定に基づくハードネガティブを導入する。
提案手法は,医療用CLIPトレーニングパイプラインに容易に組み込まれ,ゼロショット,微調整,レポート検索など,複数のタスクにおける最先端のパフォーマンスを実現する。
CXR-Alignは,胸部X線(CXR)データセットにおける否定と臨床情報の理解を一意に評価するベンチマークである。
実験結果から,提案手法は対照的な学習フレームワークにまたがって実装し,効果的に一般化し,医用VLP能力を向上し,医用画像における臨床言語理解を向上することが示唆された。
関連論文リスト
- Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。
我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。
我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文 参考訳(メタデータ) (2025-05-03T06:18:12Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - Radiology Report Generation Using Transformers Conditioned with
Non-imaging Data [55.17268696112258]
本稿では,胸部X線画像と関連する患者の人口統計情報を統合したマルチモーダルトランスフォーマーネットワークを提案する。
提案ネットワークは、畳み込みニューラルネットワークを用いて、CXRから視覚的特徴を抽出し、その視覚的特徴と患者の人口統計情報のセマンティックテキスト埋め込みを組み合わせたトランスフォーマーベースのエンコーダデコーダネットワークである。
論文 参考訳(メタデータ) (2023-11-18T14:52:26Z) - IMITATE: Clinical Prior Guided Hierarchical Vision-Language Pre-training [15.04212780946932]
階層的視覚言語アライメントを用いた医療報告から構造情報を学習するための新しいフレームワークImitateを提案する。
このフレームワークは胸部X線(CXR)画像から多段階の視覚特徴を導出し、これらの特徴を階層的な医療報告に符号化された記述的および決定的テキストと別々に整列する。
論文 参考訳(メタデータ) (2023-10-11T10:12:43Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Benchmarking Automated Clinical Language Simplification: Dataset,
Algorithm, and Evaluation [48.87254340298189]
我々はMedLaneという名の新しいデータセットを構築し、自動化された臨床言語簡易化手法の開発と評価を支援する。
我々は,人間のアノテーションの手順に従い,最先端のパフォーマンスを実現するDECLAREと呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-12-04T06:09:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。