論文の概要: PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
- arxiv url: http://arxiv.org/abs/2603.09943v1
- Date: Tue, 10 Mar 2026 17:35:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-11 15:25:24.509091
- Title: PathMem: Toward Cognition-Aligned Memory Transformation for Pathology MLLMs
- Title(参考訳): PathMem: 病理MLLMにおける認知適応メモリ変換に向けて
- Authors: Jinyue Li, Yuci Liang, Qiankun Li, Xinheng Lyu, Jiayu Qian, Huabao Chen, Kun Wang, Zhigang Zeng, Anil Anthony Bharath, Yang Liu,
- Abstract要約: 病理MLLMのためのメモリ中心のフレームワークであるPathMemを提案する。
PathMemは、構造化された病理知識を長期記憶(LTM)として整理し、LTMからワーキングメモリ(WM)への動的移行をモデル化するメモリトランスフォーマーを導入する。
PathMemはベンチマークでSOTAのパフォーマンスを達成し、WSI-Benchレポートの生成と、WSIベースの以前のモデルよりも9.7%、そして8.9%向上した。
- 参考スコア(独自算出の注目度): 39.489486470879775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Computational pathology demands both visual pattern recognition and dynamic integration of structured domain knowledge, including taxonomy, grading criteria, and clinical evidence. In practice, diagnostic reasoning requires linking morphological evidence with formal diagnostic and grading criteria. Although multimodal large language models (MLLMs) demonstrate strong vision language reasoning capabilities, they lack explicit mechanisms for structured knowledge integration and interpretable memory control. As a result, existing models struggle to consistently incorporate pathology-specific diagnostic standards during reasoning. Inspired by the hierarchical memory process of human pathologists, we propose PathMem, a memory-centric multimodal framework for pathology MLLMs. PathMem organizes structured pathology knowledge as a long-term memory (LTM) and introduces a Memory Transformer that models the dynamic transition from LTM to working memory (WM) through multimodal memory activation and context-aware knowledge grounding, enabling context-aware memory refinement for downstream reasoning. PathMem achieves SOTA performance across benchmarks, improving WSI-Bench report generation (12.8% WSI-Precision, 10.1% WSI-Relevance) and open-ended diagnosis by 9.7% and 8.9% over prior WSI-based models.
- Abstract(参考訳): コンピュータ病理学は、視覚的パターン認識と、分類学、グレーディング基準、臨床証拠を含む構造化ドメイン知識の動的統合の両方を要求する。
実際には、診断的推論は、形式的診断とグレーティングの基準と形態的証拠を結びつける必要がある。
マルチモーダル大規模言語モデル(MLLM)は、強力な視覚言語推論能力を示すが、構造化知識統合と解釈可能なメモリ制御のための明確なメカニズムは欠如している。
結果として、既存のモデルは、推論中に病理学固有の診断基準を一貫して組み込むのに苦労する。
人間の病理医の階層的記憶プロセスに着想を得て,病理学MLLMのためのメモリ中心型マルチモーダルフレームワークPathMemを提案する。
PathMemは、構造化された病理知識を長期記憶(LTM)として整理し、マルチモーダルメモリアクティベーションとコンテキスト認識の知識基礎化を通じてLTMからワーキングメモリ(WM)への動的移行をモデル化するメモリトランスフォーマーを導入する。
PathMemはベンチマーク全体でSOTAのパフォーマンスを達成し、WSI-Benchレポート生成(WSI-Precisionの12.8%、WSI-Relevanceの10.1%)を改善し、WSIベースの以前のモデルよりも9.7%と8.9%向上した。
関連論文リスト
- PathMoE: Interpretable Multimodal Interaction Experts for Pediatric Brain Tumor Classification [30.58342408480846]
PathMoEは、H&Eスライド、病理報告、核レベルセルグラフを統合する、解釈可能なマルチモーダルフレームワークである。
内科的脳腫瘍データセットと外部TGAデータセットの2つのデータセット固有の分類タスクについて,本フレームワークの評価を行った。
論文 参考訳(メタデータ) (2026-03-02T07:17:44Z) - The AI Hippocampus: How Far are We From Human Memory? [77.04745635827278]
インプリシットメモリは、事前訓練されたトランスフォーマーの内部パラメータに埋め込まれた知識を指す。
明示メモリは、動的でクエリ可能な知識表現でモデル出力を増大させるように設計された外部ストレージと検索コンポーネントを含んでいる。
エージェントメモリは、自律エージェント内に永続的、時間的に拡張されたメモリ構造を導入する。
論文 参考訳(メタデータ) (2026-01-14T03:24:08Z) - PISA: A Pragmatic Psych-Inspired Unified Memory System for Enhanced AI Agency [50.712873697511206]
既存の作業は、多種多様なタスクへの適応性に欠けることが多く、AIエージェントメモリの構成的およびタスク指向の役割を見落としている。
PISAは,メモリを構築的かつ適応的なプロセスとして扱う,実践的でサイコにインスパイアされた統合メモリシステムである。
既存のLOCOMOベンチマークと新たに提案したデータ解析タスクのAggQAベンチマークに基づいて,PISAが適応性と長期的知識保持を大幅に向上させることで,新たな最先端技術を設定することを確認した。
論文 参考訳(メタデータ) (2025-10-12T10:34:35Z) - MemOS: A Memory OS for AI System [116.87568350346537]
大規模言語モデル(LLM)は、人工知能(AGI)にとって不可欠な基盤となっている。
既存のモデルは、主に静的パラメータと短命なコンテキスト状態に依存しており、ユーザの好みを追跡したり、長い期間にわたって知識を更新する能力を制限する。
MemOSはメモリを管理可能なシステムリソースとして扱うメモリオペレーティングシステムである。
論文 参考訳(メタデータ) (2025-07-04T17:21:46Z) - BriLLM: Brain-inspired Large Language Model [40.47939901030644]
BriLLMは、機械学習の基礎を再定義する、脳にインスパイアされた大きな言語モデルである。
BriLLMは2つの重要な神経認知原理を取り入れている。(1) 静的な意味マッピング、(2) トークンは皮質領域に類似した特定のノードにマッピングされ、(2) 脳活動で観察される電気生理学的情報ダイナミクスをシミュレートする動的信号伝達である。
このアーキテクチャは、自然なマルチモーダル互換性、ノードレベルでの完全なモデル解釈可能性、コンテキスト長の独立スケーリング、言語タスクのための脳に似た情報処理のグローバルなシミュレーションなど、複数の革新的なブレークスルーを可能にする。
論文 参考訳(メタデータ) (2025-03-14T11:08:30Z) - SkelMamba: A State Space Model for Efficient Skeleton Action Recognition of Neurological Disorders [14.304356695180005]
骨格に基づく人間行動認識のための新しい状態空間モデル(SSM)を提案する。
本モデルでは,複数部位にわたる局所的な関節相互作用と大域的な運動パターンを捉える。
この歩行認識分解は、診断において重要な微妙な動きパターンを識別する能力を高める。
論文 参考訳(メタデータ) (2024-11-29T08:43:52Z) - XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare [16.79952669254101]
本稿では,大規模言語モデルによる構造化された臨床データ処理を実現するための知識誘導型インコンテキスト学習フレームワークを提案する。
このアプローチでは、ドメイン固有の機能グループ化、慎重にバランスのとれた数ショットの例、タスク固有のプロンプト戦略を統合する。
論文 参考訳(メタデータ) (2024-05-10T06:52:44Z) - Do LLMs Dream of Ontologies? [13.776194387957617]
大規模モデル言語(LLM)は、様々な自然言語処理タスクにまたがる顕著な記憶を実証している。
本稿では,LLMが公開リソースから概念識別子(ID)-ラベル関連を正しく再現する範囲について検討する。
論文 参考訳(メタデータ) (2024-01-26T15:10:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。