論文の概要: Sparse Autoencoders for Interpretable Medical Image Representation Learning
- arxiv url: http://arxiv.org/abs/2603.23794v1
- Date: Tue, 24 Mar 2026 23:54:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.062932
- Title: Sparse Autoencoders for Interpretable Medical Image Representation Learning
- Title(参考訳): 医用画像表現学習のためのスパースオートエンコーダ
- Authors: Philipp Wesp, Robbie Holland, Vasiliki Sideri-Lampretsa, Sergios Gatidis,
- Abstract要約: FM(Vision foundation model)は、医療画像における最先端のパフォーマンスを実現する。
彼らは、臨床医が尋問や検証をできない抽象的な潜伏表現に情報をエンコードする。
本研究の目的は,不透明なFM画像表現を人間の解釈可能なスパース特徴に置き換えるためのスパースオートエンコーダ(SAE)を検討することである。
- 参考スコア(独自算出の注目度): 1.973259037900468
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision foundation models (FMs) achieve state-of-the-art performance in medical imaging. However, they encode information in abstract latent representations that clinicians cannot interrogate or verify. The goal of this study is to investigate Sparse Autoencoders (SAEs) for replacing opaque FM image representations with human-interpretable, sparse features. We train SAEs on embeddings from BiomedParse (biomedical) and DINOv3 (general-purpose) using 909,873 CT and MRI 2D image slices from the TotalSegmentator dataset. We find that learned sparse features: (a) reconstruct original embeddings with high fidelity (R2 up to 0.941) and recover up to 87.8% of downstream performance using only 10 features (99.4% dimensionality reduction), (b) preserve semantic fidelity in image retrieval tasks, (c) correspond to specific concepts that can be expressed in language using large language model (LLM)-based auto-interpretation. (d) bridge clinical language and abstract latent representations in zero-shot language-driven image retrieval. Our work indicates SAEs are a promising pathway towards interpretable, concept-driven medical vision systems. Code repository: https://github.com/pwesp/sail.
- Abstract(参考訳): FM(Vision foundation model)は、医療画像における最先端のパフォーマンスを実現する。
しかし、彼らは、臨床医が尋問または検証できない抽象的な潜伏表現に情報をエンコードする。
本研究の目的は,不透明なFM画像表現を人間の解釈可能なスパース特徴に置き換えるためのスパースオートエンコーダ(SAE)を検討することである。
我々は、TotalSegmentatorデータセットから909,873 CTとMRI 2D画像スライスを使用して、BiomedParse(バイオメディカル)とDINOv3(汎用)の埋め込みにSAEをトレーニングする。
私たちは、学習されたスパース機能を見つけました。
(a)高忠実度(R2は0.941まで)のオリジナル埋め込みを復元し、10つの特徴(99.4%の寸法縮小)で下流性能の87.8%を回復する。
b)画像検索作業における意味的忠実性を維持する。
(c)は、大言語モデル(LLM)ベースの自動解釈を用いて言語で表現できる特定の概念に対応する。
(d)ゼロショット言語駆動画像検索におけるブリッジ臨床言語と抽象潜在表現
我々の研究は、SAEが解釈可能で概念駆動型医療ビジョンシステムへの有望な経路であることを示唆している。
コードリポジトリはhttps://github.com/pwesp/sail。
関連論文リスト
- SynMind: Reducing Semantic Hallucination in fMRI-Based Image Reconstruction [52.34513874272676]
既存の手法は、明示的な意味的アイデンティティよりも、絡み合った視覚的埋め込みに強く依存している、と我々は主張する。
我々はfMRI信号を、人間の視覚理解の階層的・構成的性質を反映したリッチで文レベルの意味記述に解析する。
そこで我々は,これらの明示的なセマンティックエンコーディングを視覚的プリエンプションと統合したフレームワークであるSynMindを提案する。
論文 参考訳(メタデータ) (2026-01-25T14:31:23Z) - Multi-Level CLS Token Fusion for Contrastive Learning in Endoscopy Image Classification [2.5995006632251516]
ENT内視鏡画像解析に適した統合視覚言語フレームワークを提案する。
同時に、画像分類、画像から画像への検索、テキストから画像への検索の3つの臨床的タスクに取り組む。
95%の精度とF1スコア,画像画像検索用Recall@1,画像画像検索用0.93,テキスト画像検索用0.92,MRRスコア0.97,0.96。
論文 参考訳(メタデータ) (2025-08-31T09:03:39Z) - RL4Med-DDPO: Reinforcement Learning for Controlled Guidance Towards Diverse Medical Image Generation using Vision-Language Foundation Models [0.7165255458140439]
VLFM(Vision-Language Foundation Models)は、高解像度でフォトリアリスティックな自然画像を生成するという点で、大幅な性能向上を示している。
本稿では,事前学習したVLFMがカーソリー意味理解を提供するマルチステージアーキテクチャを提案する。
報酬信号は、テキストの意味情報を合成画像と整合させるように設計されている。
論文 参考訳(メタデータ) (2025-03-20T01:51:05Z) - Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。
我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文 参考訳(メタデータ) (2024-09-13T10:19:10Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - Building Universal Foundation Models for Medical Image Analysis with
Spatially Adaptive Networks [5.661631789478932]
医用画像解析のための普遍的基礎モデルを提案する。
55の公開医用画像データセット上のマスク画像モデリング(MIM)を用いて、空間適応型視覚トークンーザ(SPAD-VT)と空間適応型視覚変換器(SPAD-ViT)を事前訓練する。
下流の医用画像分類とセグメンテーションタスクの実験結果から,本モデルの性能とラベルの効率が向上したことを示す。
論文 参考訳(メタデータ) (2023-12-12T08:33:45Z) - Exploring Transfer Learning in Medical Image Segmentation using Vision-Language Models [0.8878802873945023]
本研究では,視覚言語モデルから2次元医用画像への移行に関する最初の体系的研究を紹介する。
VLSMは画像のみのセグメンテーションモデルと比較して競合性能を示すが、全てのVLSMは言語プロンプトから追加情報を利用するわけではない。
論文 参考訳(メタデータ) (2023-08-15T11:28:21Z) - Attentive Symmetric Autoencoder for Brain MRI Segmentation [56.02577247523737]
視覚変換器(ViT)をベースとした3次元脳MRIセグメンテーションタスクのための新しいアテンテーティブシンメトリオートエンコーダを提案する。
事前学習の段階では、提案するオートエンコーダがより注意を払って、勾配測定値に従って情報パッチを再構築する。
実験の結果,提案手法は最先端の自己教師付き学習法や医用画像分割モデルよりも優れていた。
論文 参考訳(メタデータ) (2022-09-19T09:43:19Z) - Multi-Modal Masked Autoencoders for Medical Vision-and-Language
Pre-Training [62.215025958347105]
マルチモーダルマスク付きオートエンコーダを用いた自己教師型学習パラダイムを提案する。
我々は、ランダムにマスキングされた画像やテキストから欠落したピクセルやトークンを再構成することで、クロスモーダルなドメイン知識を学習する。
論文 参考訳(メタデータ) (2022-09-15T07:26:43Z) - Facial Image Reconstruction from Functional Magnetic Resonance Imaging
via GAN Inversion with Improved Attribute Consistency [5.705640492618758]
我々はfMRIデータから顔画像を再構成する新しい枠組みを提案する。
提案手法は,(1)fMRIデータから明瞭な顔画像の再構成,(2)意味的特徴の一貫性の維持という2つの目標を達成する。
論文 参考訳(メタデータ) (2022-07-03T11:18:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。