論文の概要: Toward Aristotelian Medical Representations: Backpropagation-Free Layer-wise Analysis for Interpretable Generalized Metric Learning on MedMNIST
- arxiv url: http://arxiv.org/abs/2604.06017v1
- Date: Tue, 07 Apr 2026 16:14:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.919394
- Title: Toward Aristotelian Medical Representations: Backpropagation-Free Layer-wise Analysis for Interpretable Generalized Metric Learning on MedMNIST
- Title(参考訳): Aristotelian Medical Representations: Backpropagation-Free Layer-wise Analysis for Interpretable Generalized Metric Learning on MedMNIST
- Authors: Michael Karnes, Alper Yilmaz,
- Abstract要約: A-ROMは、さらなる勾配に基づく微調整の計算負担や不透明さを伴わない、新しい医療概念の迅速なモデリングを可能にする。
我々は、従来の不透明な決定層を、人間が読める概念辞書とk-Nearest Neighbors(kNN)に置き換える。
MedMNIST v2スイートの実験では、A-ROMが標準ベンチマークと競合する性能を提供することを示した。
- 参考スコア(独自算出の注目度): 4.941630596191806
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While deep learning has achieved remarkable success in medical imaging, the "black-box" nature of backpropagation-based models remains a significant barrier to clinical adoption. To bridge this gap, we propose Aristotelian Rapid Object Modeling (A-ROM), a framework built upon the Platonic Representation Hypothesis (PRH). This hypothesis posits that models trained on vast, diverse datasets converge toward a universal and objective representation of reality. By leveraging the generalizable metric space of pretrained Vision Transformers (ViTs), A-ROM enables the rapid modeling of novel medical concepts without the computational burden or opacity of further gradient-based fine-tuning. We replace traditional, opaque decision layers with a human-readable concept dictionary and a k-Nearest Neighbors (kNN) classifier to ensure the model's logic remains interpretable. Experiments on the MedMNIST v2 suite demonstrate that A-ROM delivers performance competitive with standard benchmarks while providing a simple and scalable, "few-shot" solution that meets the rigorous transparency demands of modern clinical environments.
- Abstract(参考訳): 深層学習は医療画像において顕著な成功を収めてきたが、バックプロパゲーションに基づくモデルの「ブラックボックス」の性質は、臨床応用にとって重要な障壁である。
このギャップを埋めるために,Platonic Representation hypothesis (PRH)に基づくフレームワークであるAristotelian Rapid Object Modeling (A-ROM)を提案する。
この仮説は、膨大な多様なデータセットで訓練されたモデルが、現実の普遍的で客観的な表現に向かって収束していることを示唆している。
事前訓練された視覚変換器(ViTs)の一般化可能な距離空間を利用することで、A-ROMは計算負担やさらなる勾配に基づく微調整の不透明さを伴わずに、新しい医療概念の迅速なモデリングを可能にする。
我々は、従来の不透明な決定層を人間可読な概念辞書とk-Nearest Neighbors(kNN)分類器に置き換え、モデルの論理が解釈可能であることを保証する。
MedMNIST v2スイートの実験では、A-ROMが標準的なベンチマークと競合するパフォーマンスを提供すると同時に、現代的な臨床環境の厳格な透明性要求を満たす、シンプルでスケーラブルな"フェーショット"ソリューションを提供することを示した。
関連論文リスト
- DCG-Net: Dual Cross-Attention with Concept-Value Graph Reasoning for Interpretable Medical Diagnosis [14.035057926904559]
概念ボトルネックモデル (Concept Bottleneck Models, CBM) は、人間の解釈可能な臨床概念による構造予測である。
既存のCBMは、コンセプト間のコンテキスト依存を概ね見落としている。
本稿では,マルチモーダルアライメントと構造化概念推論を統合した,エンドツーエンドの解釈可能なフレームワークであるemphDCG-Netを提案する。
論文 参考訳(メタデータ) (2026-03-20T01:11:58Z) - OMNIFLOW: A Physics-Grounded Multimodal Agent for Generalized Scientific Reasoning [51.33849811496781]
大規模言語モデル (LLM) は例外的な論理的推論能力を示しているが、部分微分方程式 (PDE) による連続力学としばしば競合する。
OMNIFLOWは, 領域固有のパラメータ更新を必要とせず, 基本物理法則で凍結LDMを基底として設計したマルチモーダルシンボリックアーキテクチャである。
我々は, 微視的乱流, 理論的ナビエ・ストークス, マクロ的世界天気予報のベンチマークでこれを評価した。
論文 参考訳(メタデータ) (2026-03-16T18:29:01Z) - Vision-Language Models Encode Clinical Guidelines for Concept-Based Medical Reasoning [3.2723884637302443]
概念ボトルネックモデル(Concept Bottleneck Models, CBM)は、AIを解釈するための重要なフレームワークである。
臨床ガイドラインを視覚言語と推論モデルと統合する概念ベースの推論フレームワークであるMedCBRを提案する。
本フレームワークは,医用画像解析から意思決定までの終端ブリッジを構築できる。
論文 参考訳(メタデータ) (2026-03-09T20:39:46Z) - Concept-Enhanced Multimodal RAG: Towards Interpretable and Accurate Radiology Report Generation [12.226029763256962]
VLM(Vision-Language Models)による放射線学レポート生成は、ドキュメントの負担軽減、レポートの一貫性の向上、臨床導入の加速を約束する。
既存の研究では、解釈可能性と精度を別々の目的として扱い、概念に基づく説明可能性技術は透明性に重点を置いている。
本稿では,視覚表現を解釈可能な臨床概念に分解する統合フレームワークであるCEMRAG(Concept-Enhanced Multimodal RAG)を提案する。
論文 参考訳(メタデータ) (2026-02-17T15:18:07Z) - MedAlign: A Synergistic Framework of Multimodal Preference Optimization and Federated Meta-Cognitive Reasoning [52.064286116035134]
我々はMed-VQA(Med-VQA)のための視覚的LVLM応答を保証するフレームワークであるMedAlignを開発した。
まず、優先学習を視覚的コンテキストに合わせるために、マルチモーダルな直接選好最適化(mDPO)の目的を提案する。
次に、画像とテキストの類似性を生かし、クエリを専門的でコンテキスト拡張されたLVLMにルーティングする検索型混合処理(RA-MoE)アーキテクチャを設計する。
論文 参考訳(メタデータ) (2025-10-24T02:11:05Z) - Interpretable Clinical Classification with Kolgomorov-Arnold Networks [70.72819760172744]
Kolmogorov-Arnold Networks (KAN) は、透明で象徴的な表現を通じて固有の解釈能力を提供する。
Kansは、組み込みの患者レベルの洞察、直感的な可視化、最寄りの患者の検索をサポートする。
これらの結果は、カンを、臨床医が理解し、監査し、行動できる信頼できるAIへの有望なステップと位置づけている。
論文 参考訳(メタデータ) (2025-09-20T17:21:58Z) - Reference-Guided Diffusion Inpainting For Multimodal Counterfactual Generation [55.2480439325792]
自律運転や医用画像解析などの安全クリティカルなアプリケーションは、厳格なテストのために広範なマルチモーダルデータを必要とする。
本研究は, 自律運転における合成データ生成法と, 医療画像解析法であるMObIとAnydoorMedの2つの新しい手法を紹介する。
論文 参考訳(メタデータ) (2025-07-30T19:43:47Z) - Interpretability-Aware Pruning for Efficient Medical Image Analysis [3.8657427008308907]
予測性能と透明性の両方を保ちながら、モデルの複雑さを軽減できる解釈可能性誘導型プルーニングフレームワークを導入する。
複数の医用画像分類ベンチマークによる実験により, 精度の低下を最小限に抑えた高い圧縮率が得られることが示された。
論文 参考訳(メタデータ) (2025-07-11T05:58:22Z) - Robust and Interpretable Medical Image Classifiers via Concept
Bottleneck Models [49.95603725998561]
本稿では,自然言語の概念を用いた堅牢で解釈可能な医用画像分類器を構築するための新しいパラダイムを提案する。
具体的には、まず臨床概念をGPT-4から検索し、次に視覚言語モデルを用いて潜在画像の特徴を明示的な概念に変換する。
論文 参考訳(メタデータ) (2023-10-04T21:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。