論文の概要: SAIL: Structure-Aware Interpretable Learning for Anatomy-Aligned Post-hoc Explanations in OCT
- arxiv url: http://arxiv.org/abs/2605.02707v1
- Date: Mon, 04 May 2026 15:13:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.36267
- Title: SAIL: Structure-Aware Interpretable Learning for Anatomy-Aligned Post-hoc Explanations in OCT
- Title(参考訳): SAIL:OCTにおける解剖学的特徴を考慮したポストホック記述のための構造認識型解釈学習
- Authors: Tienyu Chang, Tianhao Li, Ruogu Fang, Jiang Bian, Yu Huang,
- Abstract要約: 深層学習(DL)は、OCTベースの網膜疾患検出において専門家レベルの精度を達成したが、その「黒い箱」の性質は、臨床応用の課題となっている。
既存のポストホックな説明可能なAI(XAI)メソッドは、きめ細かい病変構造を規定したり、解剖学的境界を尊重したり、ノイズを抑えるのに苦労することが多い。
本稿では、網膜解剖学の先行情報を表現レベルで統合し、それらを意味的特徴と結合する構造認識解釈学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 14.34264989195413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Optical coherence tomography (OCT), a commonly used retinal imaging modality, plays a central role in retinal disease diagnosis by providing high-resolution visualization of retinal layers. While deep learning (DL) has achieved expert-level accuracy in OCT-based retinal disease detection, its "black box" nature poses challenges for clinical adoption, where explainability is essential for clinical trust and regulatory approval. Existing post-hoc explainable AI (XAI) methods often struggle to delineate fine-grained lesion structures, respect anatomical boundaries, or suppress noise, limiting the trustworthiness of their explanations. To bridge these gaps, we propose a Structure-Aware Interpretable Learning (SAIL) framework that integrates retinal anatomical priors at the representation level and couples them with semantic features via a fusion design. Without modifying standard post-hoc explainability methods, this representation yields sharper and more anatomically aligned attribution maps. Comprehensive experiments on diverse OCT datasets demonstrate that our structure-aware method consistently enhances interpretability, producing clinically meaningful and anatomy-aware explanations. Ablation studies further show that strong interpretability requires both structural priors and semantic features, and that properly fusing the two is critical to achieve the best explanation quality. Together, these results highlight structure-aware representations as a key step toward reliable explainability in OCT.
- Abstract(参考訳): 光コヒーレンストモグラフィー(OCT)は、網膜層を高分解能で可視化することにより、網膜疾患の診断において中心的な役割を果たす。
深層学習(DL)は、OCTベースの網膜疾患検出において専門家レベルの精度を達成したが、その「黒い箱」の性質は、臨床応用に課題をもたらしており、臨床信頼と規制承認には説明責任が不可欠である。
既存のポストホックな説明可能なAI(XAI)メソッドは、微細な病変構造を規定したり、解剖学的境界を尊重したり、ノイズを抑え、説明の信頼性を制限したりするのに苦労することが多い。
これらのギャップを埋めるために,網膜解剖学的先行情報を表現レベルで統合し,融合設計により意味的特徴と結合する構造認識解釈学習(SAIL)フレームワークを提案する。
標準的なポストホックな説明可能性法を変更することなく、この表現はより鋭く、より解剖学的に整合した帰属写像をもたらす。
多様なOCTデータセットに関する総合的な実験により、我々の構造認識手法は解釈可能性を一貫して向上させ、臨床的に有意義で解剖学的に理解された説明を生み出すことを示した。
アブレーション研究は、強い解釈可能性には、構造的先行と意味的特徴の両方が必要であり、この2つを適切に融合させることが、最高の説明品質を達成するために重要であることを示している。
これらの結果から,OCTにおける信頼性説明可能性への重要なステップとして,構造認識表現が注目される。
関連論文リスト
- Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs [63.535652574541764]
MLLM(Multimodal Large Language Models)は医用画像解析において顕著な可能性を示した。
消化器内視鏡におけるそれらの応用は、現在、2つの重要な限界によって妨げられている。
本稿では,これらの課題に対処する新しい臨床認知アライメント(CogAlign)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-21T07:47:37Z) - Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning [3.2723884637302443]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、AIを解釈するための重要なフレームワークである。
臨床ガイドラインを視覚言語と推論モデルと統合する概念ベースの推論フレームワークであるMedCBRを提案する。
本フレームワークは,医用画像解析から意思決定までの終端ブリッジを構築できる。
論文 参考訳(メタデータ) (2026-03-09T20:39:46Z) - Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge [66.67024684187915]
LVLM(Large Vision Language Models)は、眼科における自動診断の可能性を秘めている。
彼らの臨床展開は、ドメイン固有の知識の欠如によって著しく妨げられている。
EyExInは、Deep Expert Injectionメカニズムを通じて専門知識で網膜VLMを固定するように設計されたフレームワークである。
論文 参考訳(メタデータ) (2026-03-07T09:43:49Z) - Structure Observation Driven Image-Text Contrastive Learning for Computed Tomography Report Generation [51.509572354327986]
本稿では,CTRG(Computed Tomography Report Generation)に適した新しい2段階(構造とレポートの学習)フレームワークを提案する。
第1段階では、CT画像中の対応する構造を学習可能な構造特異的な視覚的クエリーの集合を観察し、その結果として得られる観察トークンと、それに伴う放射線学レポートから抽出された構造特異的なテキスト特徴とを、構造的に画像テキストのコントラストロスとで対比する。
第2段階では、視覚構造クエリを凍結し、各解剖学的構造を描写したクリティカルイメージパッチ埋め込みを選択するために使用し、メモリ消費を低減しつつ、無関係領域からの注意を最小化する。
論文 参考訳(メタデータ) (2026-03-05T07:07:07Z) - A Semantically Enhanced Generative Foundation Model Improves Pathological Image Synthesis [82.01597026329158]
本稿では,組織合成のための相関調整フレームワーク(CRAFTS)について紹介する。
CRAFTSは、生物学的精度を確保するためにセマンティックドリフトを抑制する新しいアライメント機構を組み込んでいる。
本モデルは,30種類の癌にまたがる多彩な病理像を生成する。
論文 参考訳(メタデータ) (2025-12-15T10:22:43Z) - Explainable Melanoma Diagnosis with Contrastive Learning and LLM-based Report Generation [6.12668702512286]
悪性黒色腫(CEFM)のクロスモーダル説明フレームワーク
解釈可能性を達成するための中核的なメカニズムとして、対照的な学習を使う。
公開データセットの実験では92.79%の精度でAUCは0.961である。
論文 参考訳(メタデータ) (2025-12-05T19:19:36Z) - Anatomy-VLM: A Fine-grained Vision-Language Model for Medical Interpretation [12.39187443971813]
マルチスケール情報を含む視覚言語モデルAnatomy-VLMを紹介する。
まず、医用画像全体から重要な解剖学的特徴をローカライズするモデルエンコーダを設計する。
第二に、これらの領域は文脈認識解釈のための構造化された知識に富んでいる。
第3に、モデルエンコーダは、多スケールの医療情報を整列して、臨床的に解釈可能な疾患予測を生成する。
論文 参考訳(メタデータ) (2025-11-11T16:18:01Z) - Self-Supervised Anatomical Consistency Learning for Vision-Grounded Medical Report Generation [61.350584471060756]
医用画像の臨床的に正確な記述を作成することを目的とした医用レポート生成。
本稿では, 自己監督型解剖学的一貫性学習(SS-ACL)を提案し, 生成された報告を対応する解剖学的領域と整合させる。
SS-ACLは、ヒト解剖学の不変のトップダウン包摂構造にインスパイアされた階層的な解剖学的グラフを構築する。
論文 参考訳(メタデータ) (2025-09-30T08:59:06Z) - Multi-Modal Learning Using Physicians Diagnostics for Optical Coherence
Tomography Classification [0.0]
我々は,光学コヒーレンス・トモグラフィーの分析に専門家の診断と知見を取り入れたフレームワークを提案する。
OCTを用いた疾患分類を改善するために,医学診断属性データセットを作成する。
論文 参考訳(メタデータ) (2022-03-20T18:37:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。