論文の概要: EasyLens: A Training-Free Plug-and-Play Subtle-Lesion Representation Amplifier for Medical Vision-Language Models
- arxiv url: http://arxiv.org/abs/2606.06379v1
- Date: Thu, 04 Jun 2026 16:47:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.971264
- Title: EasyLens: A Training-Free Plug-and-Play Subtle-Lesion Representation Amplifier for Medical Vision-Language Models
- Title(参考訳): EasyLens: 医用ビジョンランゲージモデルのためのトレーニング不要なプラグ・アンド・プレイ・サブ・ルール表現増幅器
- Authors: Qiwei Zeng, Hao Wang, Jinghao Lin, Shuchang Ye, Yuezhe Yang, Yige Peng, Haoyuan Che, Jinman Kim, Lei Bi,
- Abstract要約: 医用視覚言語モデル(VLM)のための訓練不要なプラグアンドプレイ微妙な表現増幅器 EasyLens を提案する。
EasyLensが最初に作ったEasyBankは、病理解剖学のプロトタイプスペースで、病変関連のプロトタイプと解剖学の通常の参照を提供する。
正常な組織を盲目的に増幅するのを避けるため、EasyTagは反ファクトのプロトタイプ推論を通じて病変関連パッチを選択する。
複数の医用画像データセットと凍結された医用VLMバックボーンの実験では、EasyLensは微妙な回帰検出を改善し、既存のエンコーダ・エンハンスメントベースラインを上回っている。
- 参考スコア(独自算出の注目度): 10.799852886898927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Medical vision-language models (VLMs) have shown increasing potential for clinical image interpretation, including lesion detection and report generation. However, their practical utility remains limited by insufficient sensitivity to subtle lesions, whose visual evidence is often sparse, low-contrast, and embedded within complex anatomical context. As local visual tokens are aggregated, these weak lesion cues can become underrepresented in global image representations, making them difficult for medical VLMs to recognize. Existing efforts to improve lesion sensitivity mainly rely on medical-domain vision-encoder pre-training, clinical-term-guided alignment, or trainable pathological representation enhancement. Although effective, these approaches usually require additional training or model-specific adaptation and may overfit to particular disease morphologies, limiting their applicability to frozen medical VLMs. To address these limitations, we propose EasyLens, a training-free plug-and-play subtle-lesion representation amplifier for medical VLMs. EasyLens first constructs EasyBank, a pathology-anatomy prototype space that provides lesion-related prototypes and anatomy-aware normal references for comparing suspicious patches against both pathological and normal anatomical patterns. To avoid blindly amplifying normal tissues, EasyTag selects lesion-relevant patches through counterfactual prototype reasoning. To counteract the dilution of subtle lesion cues in global image representations, EasyAmplifier strengthens the selected lesion-relevant patch representations through morphology-guided residual enhancement, thereby increasing their contribution to the global image embedding. Experiments on multiple medical image datasets and frozen medical VLM backbones show that EasyLens improves subtle-lesion detection and outperforms existing encoder-enhancement baselines.
- Abstract(参考訳): 医用視覚言語モデル(VLM)は、病変検出や報告生成を含む臨床画像解釈の可能性が高まっている。
しかし、その実用性は微妙な病変に対する感度の不足によって制限されており、その視覚的証拠は、しばしばスパースで、低コントラストであり、複雑な解剖学的文脈に埋め込まれている。
局所的な視覚トークンが集約されるにつれて、これらの弱い病変の手がかりはグローバルな画像表現では表現されにくくなり、医療用VLMが認識することが困難になる。
病変の感度を高めるための既存の取り組みは、主に医療領域の視覚エンコーダの事前訓練、臨床期間のアライメント、または訓練可能な病理表現の強化に依存している。
効果はあるが、これらのアプローチは通常、追加の訓練やモデル固有の適応を必要とし、特定の疾患形態に過度に適応し、凍結医療用VLMに適用性を制限する。
これらの制約に対処するために,医療用VLMのためのトレーニング不要なプラグアンドプレイ微妙な表現増幅器 EasyLens を提案する。
EasyLensが最初に構築したEasyBankは、病理解剖学的および正常な解剖学的パターンの両方に対する疑わしいパッチを比較するために、病変関連プロトタイプと解剖学的正常参照を提供する、病理解剖学的プロトタイプスペースである。
正常な組織を盲目的に増幅するのを避けるため、EasyTagは反ファクトのプロトタイプ推論を通じて病変関連パッチを選択する。
大域的な画像表現における微妙な病変キューの希釈に対処するため、EasyAmplifierは形態誘導的残像強調を通じて選択された病変関連パッチ表現を強化し、大域的な画像埋め込みへの寄与を増大させる。
複数の医用画像データセットと凍結された医用VLMバックボーンの実験では、EasyLensは微妙な回帰検出を改善し、既存のエンコーダ・エンハンスメントベースラインを上回っている。
関連論文リスト
- Multi-View Synergistic Learning with Vision-Language Adaption for Low-Resource Biomedical Image Classification [59.24009931000134]
MVSL(Multi-View Synergistic Learning)は、適応パラダイム、表現の粒度、疾患の意味的関係に対処する統合フレームワークである。
MVSLは、視覚的およびテキスト的エンコーダの適応を分離し、それぞれの表現特性を尊重する。
さらに、グローバルなイメージセマンティクスと局所的な病変レベルの証拠の両方を明示的にモデル化するために、多粒性コントラスト学習を導入する。
MVSLは、いくつかのショットとゼロショットの分類設定において、最先端のメソッドを一貫して上回る。
論文 参考訳(メタデータ) (2026-04-27T02:41:27Z) - Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - Look Carefully: Adaptive Visual Reinforcements in Multimodal Large Language Models for Hallucination Mitigation [51.743225614196774]
マルチモーダル大言語モデル (MLLM) は視覚言語推論において顕著な進歩を遂げている。
彼らは幻覚に弱いままであり、そこで生成されたコンテンツは視覚的証拠から逸脱する。
近年の視覚強調法では、復号時に視覚トークンを補強することでこの問題に対処しようとしている。
本稿では,MLLMのトレーニングフリーフレームワークであるAdaptive Visual Reinforcement (AIR)を提案する。
論文 参考訳(メタデータ) (2026-02-27T14:18:51Z) - Anatomical Region-Guided Contrastive Decoding: A Plug-and-Play Strategy for Mitigating Hallucinations in Medical VLMs [20.507007953026346]
Anatomical Region-Guided Contrastive Decoding (ARCD) は、目標とする地域固有のガイダンスを提供することで幻覚を緩和するプラグアンドプレイ戦略である。
本手法は, 地域理解の向上, 幻覚の低減, 総合的診断精度の向上に有効である。
論文 参考訳(メタデータ) (2025-12-19T03:11:20Z) - MedSeg-R: Medical Image Segmentation with Clinical Reasoning [28.33172310047359]
MedSeg-Rは、臨床推論にインスパイアされた軽量でデュアルステージのフレームワークである。
その認知段階は、医療報告を、トランスフォーマーブロックを介して融合される構造化セマンティックプリエントに解釈する。
挑戦的なベンチマークでは、MedSeg-Rは重なり合う構造とあいまいな構造において大きなDiceの改善をもたらす。
論文 参考訳(メタデータ) (2025-06-23T14:14:09Z) - Seeing the Trees for the Forest: Rethinking Weakly-Supervised Medical Visual Grounding [45.248265283405004]
現在のモデルは、非効率な注意機構ときめ細かいトークン表現の欠如により、テキスト記述と病気領域を関連付けるのに苦労している。
本稿では、VLMの説明可能性マップを用いて、適切な画像特徴を識別する病原体認識プロンプト(DAP)を提案する。
DAPは3つの主要な胸部X線データセットの最先端手法と比較して、視覚的接地精度を20.74%向上させる。
論文 参考訳(メタデータ) (2025-05-21T05:16:45Z) - Enhancing Skin Disease Diagnosis: Interpretable Visual Concept Discovery with SAM [41.398287899966995]
現在のAIによる皮膚画像診断は、皮膚がんの分類において皮膚科レベルのパフォーマンスを達成している。
皮膚病変診断のための新しいクロス・アテテーティブ・フュージョン・フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-14T20:11:25Z) - AMLP:Adaptive Masking Lesion Patches for Self-supervised Medical Image
Segmentation [67.97926983664676]
自己監督型マスク画像モデリングは自然画像に対して有望な結果を示した。
しかし,このような手法を医用画像に直接適用することは依然として困難である。
適応型マスキング病変パッチ(AMLP)の自己管理型医用画像分割フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T13:18:10Z) - DrasCLR: A Self-supervised Framework of Learning Disease-related and
Anatomy-specific Representation for 3D Medical Images [23.354686734545176]
3次元医用イメージングのための新しいSSLフレームワークDrasCLRを提案する。
本研究では, 局所解剖学的領域内の微妙な疾患パターンを捉えることを目的としており, 大規模領域にまたがる深刻な疾患パターンを表現することを目的としている。
論文 参考訳(メタデータ) (2023-02-21T01:32:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。