論文の概要: PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis
- arxiv url: http://arxiv.org/abs/2506.10669v1
- Date: Thu, 12 Jun 2025 12:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.742518
- Title: PiPViT: Patch-based Visual Interpretable Prototypes for Retinal Image Analysis
- Title(参考訳): PiPViT:網膜画像解析のためのパッチベースのビジュアル解釈可能なプロトタイプ
- Authors: Marzieh Oghbaie, Teresa Araújoa, Hrvoje Bogunović,
- Abstract要約: Patch-based Visual Interpretable Prototypes は,画像認識のための本質的に解釈可能な原型モデルである。
PiPViTは、パッチ間の長距離依存関係をキャプチャして、堅牢で人間の解釈可能なプロトタイプを学ぶ。
網膜 OCT 画像分類における PiPViT の評価を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Background and Objective: Prototype-based methods improve interpretability by learning fine-grained part-prototypes; however, their visualization in the input pixel space is not always consistent with human-understandable biomarkers. In addition, well-known prototype-based approaches typically learn extremely granular prototypes that are less interpretable in medical imaging, where both the presence and extent of biomarkers and lesions are critical. Methods: To address these challenges, we propose PiPViT (Patch-based Visual Interpretable Prototypes), an inherently interpretable prototypical model for image recognition. Leveraging a vision transformer (ViT), PiPViT captures long-range dependencies among patches to learn robust, human-interpretable prototypes that approximate lesion extent only using image-level labels. Additionally, PiPViT benefits from contrastive learning and multi-resolution input processing, which enables effective localization of biomarkers across scales. Results: We evaluated PiPViT on retinal OCT image classification across four datasets, where it achieved competitive quantitative performance compared to state-of-the-art methods while delivering more meaningful explanations. Moreover, quantitative evaluation on a hold-out test set confirms that the learned prototypes are semantically and clinically relevant. We believe PiPViT can transparently explain its decisions and assist clinicians in understanding diagnostic outcomes. Github page: https://github.com/marziehoghbaie/PiPViT
- Abstract(参考訳): 背景と目的: プロトタイプベースの手法は, きめ細かい部分プロトタイプを学習することで解釈性を向上させるが, 入力画素空間における可視化は, 必ずしも人間の理解可能なバイオマーカーと一致しない。
さらに、よく知られたプロトタイプベースのアプローチは、通常、バイオマーカーと病変の存在と範囲の両方が重要である、医療画像では解釈できない非常に粒度の細かいプロトタイプを学習する。
方法:これらの課題に対処するため,画像認識のための本質的に解釈可能な原型モデルであるPiPViT(パッチベースのVisual Interpretable Prototypes)を提案する。
視覚変換器(ViT)を利用することで、PiPViTはパッチ間の長距離依存関係をキャプチャして、画像レベルラベルのみを使用して病変範囲を近似する堅牢で人間解釈可能なプロトタイプを学習する。
さらに、PiPViTはコントラスト学習とマルチレゾリューション入力処理の恩恵を受けており、スケールにわたってバイオマーカーを効果的にローカライズすることができる。
結果: 4つのデータセットにおける網膜CT画像分類におけるPiPViTの評価を行った。
さらに, 保持テストセットの定量的評価により, 学習したプロトタイプが意味的に, 臨床的に関連があることが確認された。
PiPViTは、その決定を透過的に説明し、診断結果を理解するために臨床医を支援することができると信じている。
Githubページ:https://github.com/marziehoghbaie/PiPViT
関連論文リスト
- ProtoECGNet: Case-Based Interpretable Deep Learning for Multi-Label ECG Classification with Contrastive Learning [0.21079694661943607]
ProtoECGNetは、解釈可能な多ラベルECG分類のためのプロトタイプディープラーニングモデルである。
PTB-XLデータセットから71の診断ラベルについてProtoECGNetを評価する。
ProtoECGNetは、プロトタイプ学習を複雑で多ラベルの時系列分類に効果的にスケールできることを示した。
論文 参考訳(メタデータ) (2025-04-11T17:23:37Z) - PathSegDiff: Pathology Segmentation using Diffusion model representations [63.20694440934692]
そこで我々は,Latent Diffusion Models (LDMs) を事前学習した特徴抽出器として活用する,病理組織像分割の新しい手法であるPathSegDiffを提案する。
本手法は,H&E染色組織像から多彩な意味情報を抽出するために,自己教師型エンコーダによって誘導される病理特異的LCMを用いる。
本実験は,BCSSおよびGlaSデータセットにおける従来の手法よりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2025-04-09T14:58:21Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - ProbMCL: Simple Probabilistic Contrastive Learning for Multi-label Visual Classification [16.415582577355536]
マルチラベル画像分類は、コンピュータビジョンや医用画像など、多くの領域において難しい課題である。
最近の進歩は、グラフベースとトランスフォーマーベースのメソッドを導入し、パフォーマンスを改善し、ラベルの依存関係をキャプチャしている。
本稿では,これらの課題に対処する新しいフレームワークである確率的多ラベルコントラスト学習(ProbMCL)を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:15:20Z) - Pixel-Level Explanation of Multiple Instance Learning Models in
Biomedical Single Cell Images [52.527733226555206]
複数のインスタンス学習モデルを説明するための4つの属性法について検討する。
急性骨髄性白血病の2つのデータセットと100万以上の単細胞画像について検討した。
我々は、属性マップと医療専門家の注釈を比較し、モデルの意思決定が人間の基準とどのように異なるかを確認する。
論文 参考訳(メタデータ) (2023-03-15T14:00:11Z) - Rethinking Semi-Supervised Medical Image Segmentation: A
Variance-Reduction Perspective [51.70661197256033]
医用画像セグメンテーションのための階層化グループ理論を用いた半教師付きコントラスト学習フレームワークARCOを提案する。
まず、分散還元推定の概念を用いてARCOを構築することを提案し、特定の分散還元技術が画素/ボクセルレベルのセグメンテーションタスクにおいて特に有用であることを示す。
5つの2D/3D医療データセットと3つのセマンティックセグメンテーションデータセットのラベル設定が異なる8つのベンチマークで、我々のアプローチを実験的に検証する。
論文 参考訳(メタデータ) (2023-02-03T13:50:25Z) - PCA: Semi-supervised Segmentation with Patch Confidence Adversarial
Training [52.895952593202054]
医用画像セグメンテーションのためのPatch Confidence Adrial Training (PCA) と呼ばれる半教師付き対向法を提案する。
PCAは各パッチの画素構造とコンテキスト情報を学習し、十分な勾配フィードバックを得る。
本手法は, 医用画像のセグメンテーションにおいて, 最先端の半教師付き手法より優れており, その有効性を示している。
論文 参考訳(メタデータ) (2022-07-24T07:45:47Z) - Self-Supervised Vision Transformers Learn Visual Concepts in
Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。
我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文 参考訳(メタデータ) (2022-03-01T16:14:41Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。