論文の概要: A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models
- arxiv url: http://arxiv.org/abs/2601.17952v1
- Date: Sun, 25 Jan 2026 19:03:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.557132
- Title: A Monosemantic Attribution Framework for Stable Interpretability in Clinical Neuroscience Large Language Models
- Title(参考訳): 臨床神経科学大言語モデルにおける安定的解釈可能性のための単意味属性フレームワーク
- Authors: Michail Mamalakis, Tiago Azevedo, Cristian Cosentino, Chiara D'Ercoli, Subati Abulikemu, Zhongtian Sun, Richard Bethlehem, Pietro Lio,
- Abstract要約: 解釈可能性は、アルツハイマー病の進行診断のような臨床環境において、大きな言語モデル(LLM)をデプロイする上で重要な課題である。
帰属的・機械的視点を統合した統合的解釈可能性フレームワークを導入する。
- 参考スコア(独自算出の注目度): 9.694820939059339
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Interpretability remains a key challenge for deploying large language models (LLMs) in clinical settings such as Alzheimer's disease progression diagnosis, where early and trustworthy predictions are essential. Existing attribution methods exhibit high inter-method variability and unstable explanations due to the polysemantic nature of LLM representations, while mechanistic interpretability approaches lack direct alignment with model inputs and outputs and do not provide explicit importance scores. We introduce a unified interpretability framework that integrates attributional and mechanistic perspectives through monosemantic feature extraction. By constructing a monosemantic embedding space at the level of an LLM layer and optimizing the framework to explicitly reduce inter-method variability, our approach produces stable input-level importance scores and highlights salient features via a decompressed representation of the layer of interest, advancing the safe and trustworthy application of LLMs in cognitive health and neurodegenerative disease.
- Abstract(参考訳): 解釈可能性は、早期かつ信頼性の高い予測が不可欠であるアルツハイマー病の進行診断のような臨床環境において、大きな言語モデル(LLM)をデプロイする上で重要な課題である。
既存の帰属法では LLM 表現の多意味性による金属間変動と不安定な説明が得られているが、機械的解釈可能性のアプローチはモデル入力や出力と直接的に一致せず、明確な重要性のスコアを提供していない。
本稿では,単意味的特徴抽出を通じて帰属的・機械的視点を統合する統合的解釈可能性フレームワークを提案する。
LLM層にモノセマンティックな埋め込み空間を構築し, フレームワークを最適化して金属間変動を明示的に低減することにより, 安定した入力レベルの重要度スコアを生成し, 関心の層を圧縮した表現を通して健全な特徴を強調し, 認知健康や神経変性疾患におけるLLMの安全かつ信頼性の高い応用を推し進める。
関連論文リスト
- nnMIL: A generalizable multiple instance learning framework for computational pathology [11.640858438464159]
nnMILは、パッチレベルの基礎モデルと堅牢なスライドレベルの臨床推論を結びつける学習フレームワークである。
nnMILは、疾患診断、組織学的サブタイプ、分子バイオマーカー検出、パンガン予後予測において、既存のMIL法よりも一貫して優れていた。
結論として、nnMILは、病理基盤モデルを臨床的に有意義な予測に翻訳するための実用的で一般化可能なソリューションを提供する。
論文 参考訳(メタデータ) (2025-11-18T20:56:37Z) - CANDLE: A Cross-Modal Agentic Knowledge Distillation Framework for Interpretable Sarcopenia Diagnosis [3.0245458192729466]
CANDLEは、解釈可能性と性能のトレードオフを緩和し、予測精度を高め、高い決定一貫性を維持する。
このフレームワークは、TMLモデルの知識アセット化に対するスケーラブルなアプローチを提供し、サルコピアおよび潜在的に広い医療領域における解釈可能、再現可能、および臨床的に整合した意思決定支援を可能にする。
論文 参考訳(メタデータ) (2025-07-26T15:50:08Z) - MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [57.044719143401664]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。
モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。
がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-01T07:02:30Z) - LlaMADRS: Prompting Large Language Models for Interview-Based Depression Assessment [75.44934940580112]
LlaMADRSは、オープンソースのLarge Language Models(LLM)を利用して、うつ病の重症度評価を自動化する新しいフレームワークである。
本研究は,クリニカルインタヴューの解釈・スコアリングにおけるモデル指導のために,慎重に設計された手がかりを用いたゼロショットプロンプト戦略を用いている。
実世界における236件のインタビューを対象とし,臨床評価と強い相関性を示した。
論文 参考訳(メタデータ) (2025-01-07T08:49:04Z) - Knowledge-Augmented Multimodal Clinical Rationale Generation for Disease Diagnosis with Small Language Models [14.136585695164426]
小型言語モデル(SLM)は効率的であるが、マルチモーダル医療データを統合するための高度な推論が欠けている。
我々は,LLM由来の推論能力を合理的蒸留とドメイン知識注入によって活用し,SLMの強化を図るClinRaGenを提案する。
実世界の医療データセットの実験により、ClinRaGenは疾患の診断と合理性生成において最先端のパフォーマンスを達成することが示された。
論文 参考訳(メタデータ) (2024-11-12T07:34:56Z) - Beyond Interpretability: The Gains of Feature Monosemanticity on Model Robustness [68.69369585600698]
ディープラーニングモデルは多意味性による解釈可能性の欠如に悩まされることが多い。
神経細胞が一貫したセマンティクスと異なるセマンティクスに対応するモノセマンティクスの最近の進歩は、解釈可能性を大幅に改善した。
モノセマンティックな特徴は解釈可能性を高めるだけでなく、モデル性能の具体的な向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-27T18:03:20Z) - Beyond Self-Consistency: Ensemble Reasoning Boosts Consistency and Accuracy of LLMs in Cancer Staging [0.33554367023486936]
がんのステージング状態は臨床報告で確認できるが、抽出するには自然言語処理が必要である。
臨床指向の大規模言語モデルの進歩により、アルゴリズムの訓練に多大な努力を払わずに、そのような状態を抽出することが期待されている。
本研究では,モデル生成の一貫性向上を目的としたアンサンブル推論手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T19:34:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。