論文の概要: The Effect of Negation on CLIP in Medical Imaging: Limitations of Contrastive Language-Image Pretraining
- arxiv url: http://arxiv.org/abs/2512.17121v1
- Date: Thu, 18 Dec 2025 23:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.195786
- Title: The Effect of Negation on CLIP in Medical Imaging: Limitations of Contrastive Language-Image Pretraining
- Title(参考訳): 医療画像における否定がCLIPに及ぼす影響:コントラスト言語-画像事前訓練の限界
- Authors: Jasmine Vu, Shivanand Sheshappanavar,
- Abstract要約: 我々は,Stanford AIMI CheXagentモデルの胸部X線像を,否定を伴わないプロンプトを用いて正確に検索する能力について評価した。
以上の結果から,CLIPモデルにおける否定処理の処理精度は,肯定的評価の精度をわずかに低下させることが明らかとなった。
- 参考スコア(独自算出の注目度): 2.797002704887474
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large vision-language models like CLIP are increasingly used in medical imaging tasks due to their ability to align images and text without the need for extensive labeled data. This makes them particularly useful for applications like image retrieval, report generation, and classification in clinical settings. A potential issue to this approach is that CLIP-based models often under perform when interpreting negated phrases, which is especially problematic in the context of medical diagnosing. In this study, we evaluate the Stanford AIMI CheXagent model on its ability to correctly retrieve chest X-ray images using prompts with and without negation. The goal of this project is to understand where this model fails and then use it as a base model to improve its retrieval accuracy by fine tuning methods outlined in previous work. Results from this study show improvement in handling of negation in the CLIP model with a slight decrease in accuracy of positive prompt evaluation. Alongside retrieval accuracy, we examined internal model behavior through token attribution, t-SNE projection, and attention-head ablation to better characterize how each fine tuning approach reshaped the text encoders representation of negated clinical language. Through this work, we hope to better understand the internal behavior of CLIP and improve its handling of negation using clinically relevant language for improving its reliability in medical AI devices.
- Abstract(参考訳): CLIPのような大規模ビジョン言語モデルは、広範なラベル付きデータを必要とせず、画像とテキストをアライメントできるため、医療画像タスクにますます利用されている。
これは、画像検索、レポート生成、臨床環境での分類などのアプリケーションに特に有用である。
このアプローチの潜在的な問題は、医療診断の文脈で特に問題となる、否定的なフレーズを解釈する際に、CLIPベースのモデルがしばしば実行されていることである。
本研究では,Stanford AIMI CheXagentモデルによる胸部X線画像の抽出能力の評価を行った。
このプロジェクトの目的は,このモデルがどこで失敗するかを理解し,それをベースモデルとして使用することにより,以前の研究で概説した微調整手法による検索精度を向上させることである。
以上の結果から,CLIPモデルにおける否定処理の処理精度は,肯定的評価の精度をわずかに低下させることが明らかとなった。
検索精度の向上とともに,トークン属性,t-SNE投影,アテンション・ヘッド・アブレーションによる内部モデル行動について検討し,各微調整手法が否定的臨床言語のテキストエンコーダ表現をいかに形作るかを明らかにした。
この研究を通じて、CLIPの内部動作をよりよく理解し、臨床関連言語を用いた否定の扱いを改善し、医療用AIデバイスの信頼性を向上させることを期待する。
関連論文リスト
- MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - AUTOCT: Automating Interpretable Clinical Trial Prediction with LLM Agents [47.640779069547534]
AutoCTは、大規模言語モデルの推論能力と古典的な機械学習の説明可能性を組み合わせた、新しいフレームワークである。
臨床治験予測タスクにおいて, AutoCT は SOTA 法と同等以上の性能を示した。
論文 参考訳(メタデータ) (2025-06-04T11:50:55Z) - Bringing CLIP to the Clinic: Dynamic Soft Labels and Negation-Aware Learning for Medical Analysis [0.9944647907864256]
臨床的に強化されたダイナミック・ソフト・ラベルと医用グラフィカル・アライメントを統合した新しいアプローチを提案する。
われわれのアプローチは、医療用CLIPトレーニングパイプラインに容易に統合され、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-05-28T08:00:18Z) - IteRPrimE: Zero-shot Referring Image Segmentation with Iterative Grad-CAM Refinement and Primary Word Emphasis [46.502962768034166]
Zero-shot Referring Imageは、トレーニングや微調整なしで参照式に最も適したインスタンスマスクを特定する。
従来のCLIPモデルでは、物体の相対的な空間的関係を識別する能力が顕著に低下していた。
IteRPrimEは従来の最先端のゼロショットメソッドよりも優れており、特にドメイン外のシナリオでは優れている。
論文 参考訳(メタデータ) (2025-03-02T15:19:37Z) - Fairness Analysis of CLIP-Based Foundation Models for X-Ray Image Classification [15.98427699337596]
X線画像分類に応用したCLIP様モデルの包括的公平性解析を行う。
我々は,ゼロショット推論と様々な微調整技術を用いて,多様な患者集団と疾患カテゴリーにおけるパフォーマンスと公平性を評価した。
論文 参考訳(メタデータ) (2025-01-31T12:23:50Z) - Benchmarking Robustness of Contrastive Learning Models for Medical Image-Report Retrieval [2.9801426627439453]
本研究では,CLIP,CXR-RePaiR,MedCLIP,CXR-CLIPの4つの最先端コントラスト学習モデルの堅牢性を評価する。
以上の結果から,全ての評価モデルは分布外データに非常に敏感であることが判明した。
これらの制限に対処することにより、医療応用のためのより信頼性の高いクロスドメイン検索モデルを構築することができる。
論文 参考訳(メタデータ) (2025-01-15T20:37:04Z) - Visual Prompt Engineering for Vision Language Models in Radiology [0.17183214167143138]
Contrastive Language-Image Pretraining (CLIP)は,マルチモーダルな大規模事前訓練によるゼロショット分類を可能にすることで,有望なソリューションを提供する。
CLIPは、グローバルな画像コンテンツを効果的にキャプチャするが、ラジオロジーは、解釈可能性と診断精度の両方を高めるために、特定の病理領域により局所的な焦点をあてる必要がある。
視覚的手がかりをゼロショット分類に組み込む可能性を探り、矢印、バウンディングボックス、円などの視覚的マーカーを直接放射線画像に埋め込んでモデル注意を誘導する。
論文 参考訳(メタデータ) (2024-08-28T13:53:27Z) - Uncertainty-aware Medical Diagnostic Phrase Identification and Grounding [72.18719355481052]
MRG(Messical Report Grounding)と呼ばれる新しい課題について紹介する。
MRGは医療報告から診断フレーズとその対応する接地箱を直接エンドツーエンドで識別することを目的としている。
マルチモーダルな大規模言語モデルを用いて診断フレーズを予測する,堅牢で信頼性の高いフレームワークである uMedGround を提案する。
論文 参考訳(メタデータ) (2024-04-10T07:41:35Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。