論文の概要: Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge
- arxiv url: http://arxiv.org/abs/2603.07131v2
- Date: Tue, 10 Mar 2026 05:28:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 12:59:13.025687
- Title: Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge
- Title(参考訳): ドメイン特化知識を用いた網膜VLMのアンチョリングのための深部エキスパートインジェクション
- Authors: Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li,
- Abstract要約: LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
- 参考スコア(独自算出の注目度): 66.67024684187915
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Vision Language Models (LVLMs) show immense potential for automated ophthalmic diagnosis. However, their clinical deployment is severely hindered by lacking domain-specific knowledge. In this work, we identify two structural deficiencies hindering reliable medical reasoning: 1) the Perception Gap, where general-purpose visual encoders fail to resolve fine-grained pathological cues (e.g., microaneurysms); and 2) the Reasoning Gap, where sparse visual evidence is progressively overridden by massive language priors in deeper transformer layers, leading to ungrounded hallucinations. To bridge these gaps, we propose EyExIn, a data-efficient framework designed to anchor retinal VLMs with expert knowledge via a Deep Expert Injection mechanism. Our architecture employs an Expert-Aware Dual-Stream encoding strategy that decouples visual representation into a general stream for anatomical context and a specialized expert stream for pathological semantics. To ensure high-fidelity integration, we design a Semantic-Adaptive Gated Fusion module, which dynamically amplifies subtle lesion signals while filtering irrelevant background noise. Furthermore, we introduce Adaptive Deep Expert Injection to embed persistent "Vision Anchors" by integrating fused visual features as residual biases directly into intermediate LLM layers. This mechanism creates a visual shortcut that forces the reasoning stack to remain strictly grounded in visual evidence. Extensive experiments across four benchmarks demonstrate that our model consistently outperforms massive proprietary systems. EyExIn significantly enhances domain-specific knowledge embedding and achieves state-of-the-art precision in ophthalmic visual question answering, advancing the development of trustworthy ophthalmic AI.
- Abstract(参考訳): LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
しかし、その臨床展開はドメイン固有の知識の欠如によって著しく妨げられている。
本研究では、信頼性の高い医学的推論を妨げる2つの構造的欠陥を同定する。
1) 汎用視覚エンコーダが微細な病理的手がかり(例,微小動脈瘤)の解決に失敗する知覚ギャップ
2) 疎外的な視覚的証拠が、より深いトランスフォーマー層において、巨大な言語によって徐々に過度に覆われ、根拠のない幻覚に繋がるReasoning Gap。
これらのギャップを埋めるため、我々は、Deep Expert Injectionメカニズムを介して、網膜VLMを専門知識で固定するデータ効率の高いフレームワークであるEyExInを提案する。
我々のアーキテクチャは、視覚表現を解剖学的文脈の一般的なストリームと、病理学的意味論の専門的な専門家ストリームに分解するエキスパート・アウェア・デュアルストリーム符号化戦略を採用している。
高忠実度統合を実現するため,無関係な背景雑音をフィルタリングしながら微妙な病変信号を動的に増幅するSemantic-Adaptive Gated Fusionモジュールを設計した。
さらに我々は、融合した視覚的特徴を残留バイアスとして直接中間LCM層に組み込むことにより、永続的な「視覚アンカー」を埋め込むための適応的深部エキスパートインジェクションを導入する。
このメカニズムは視覚的ショートカットを生成し、推論スタックを視覚的証拠に厳格に根ざすように強制する。
4つのベンチマークによる大規模な実験により、我々のモデルは巨大なプロプライエタリシステムよりも一貫して優れています。
EyExInは、ドメイン固有の知識の埋め込みを大幅に強化し、眼科の視覚的質問応答における最先端の精度を達成し、信頼できる眼科AIの開発を促進する。
関連論文リスト
- LEAD: Layer-wise Expert-aligned Decoding for Faithful Radiology Report Generation [25.67810663907638]
放射線診断報告生成(RRG)は、医用画像から正確で一貫性のある診断を作成することを目的としている。
大型視覚言語モデル (LVLM) は幻覚を示し、可視だが画像のない病理像を生成する。
本稿では,LVLMデコーダを本質的に修正する新しい手法であるレイヤワイズ・エキスパートアライメント・デコーダ(LEAD)を提案する。
論文 参考訳(メタデータ) (2026-02-04T14:45:49Z) - Anatomical Region-Guided Contrastive Decoding: A Plug-and-Play Strategy for Mitigating Hallucinations in Medical VLMs [20.507007953026346]
Anatomical Region-Guided Contrastive Decoding (ARCD) は、目標とする地域固有のガイダンスを提供することで幻覚を緩和するプラグアンドプレイ戦略である。
本手法は, 地域理解の向上, 幻覚の低減, 総合的診断精度の向上に有効である。
論文 参考訳(メタデータ) (2025-12-19T03:11:20Z) - MedEyes: Learning Dynamic Visual Focus for Medical Progressive Diagnosis [17.59077756990045]
MedEyesは、臨床医スタイルの診断推論を動的にモデル化する強化学習フレームワークである。
二重モード探索法を用いて診断過程をエミュレートし, 組織的異常局所化をスキャンし, 詳細な地域分析を行う。
実験の結果、MedEyesは複数の医療用VQAベンチマークで+8.5%の性能向上を達成した。
論文 参考訳(メタデータ) (2025-11-27T01:47:43Z) - RAU: Reference-based Anatomical Understanding with Vision Language Models [26.06602931463068]
視覚言語モデル(VLM)を用いた参照型解剖学的理解のためのフレームワークであるRAUを紹介する。
まず,VLMが参照画像と対象画像の相対的空間的推論により解剖学的領域の同定を学習することを示す。
次に, VLM由来の空間的手がかりをSAM2の細粒度セグメンテーション能力とシームレスに統合できることを実証した。
論文 参考訳(メタデータ) (2025-09-26T14:32:03Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - DeepPerception: Advancing R1-like Cognitive Visual Perception in MLLMs for Knowledge-Intensive Visual Grounding [61.26026947423187]
人間の専門家は、ドメイン知識を活用して知覚的特徴を洗練することによって、きめ細かい視覚的識別に長けている。
現在のMLLM(Multimodal Large Language Models)は、推論を視覚的知覚に統合するのに苦労している。
本稿では,認知的視覚能力を強化したMLLMであるDeepPerceptionを提案する。
論文 参考訳(メタデータ) (2025-03-17T04:06:34Z) - A Foundation Language-Image Model of the Retina (FLAIR): Encoding Expert Knowledge in Text Supervision [17.875098424936542]
広義網膜基底画像理解のための学習済み視覚言語モデルFLAIRについて述べる。
各種ソースから38個のオープンアクセスデータセットを収集した。
我々は、事前学習とゼロショット推論の両方において、専門家のドメイン知識を記述的テキストプロンプトの形で統合する。
論文 参考訳(メタデータ) (2023-08-15T17:39:52Z) - Cross-modal Clinical Graph Transformer for Ophthalmic Report Generation [116.87918100031153]
眼科報告生成(ORG)のためのクロスモーダルな臨床グラフ変換器(CGT)を提案する。
CGTは、デコード手順を駆動する事前知識として、臨床関係を視覚特徴に注入する。
大規模FFA-IRベンチマークの実験は、提案したCGTが従来のベンチマーク手法より優れていることを示した。
論文 参考訳(メタデータ) (2022-06-04T13:16:30Z) - Assessing glaucoma in retinal fundus photographs using Deep Feature
Consistent Variational Autoencoders [63.391402501241195]
緑内障は症状が重くなるまで無症状のままでいるため、検出が困難である。
緑内障の早期診断は機能的,構造的,臨床的評価に基づいて行われることが多い。
ディープラーニング手法はこのジレンマを、マーカー識別段階をバイパスし、ハイレベルな情報を分析してデータを分類することで部分的に解決している。
論文 参考訳(メタデータ) (2021-10-04T16:06:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。