論文の概要: HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
- arxiv url: http://arxiv.org/abs/2601.13919v1
- Date: Tue, 20 Jan 2026 12:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.31007
- Title: HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
- Title(参考訳): HyperWalker: 医療用VLMにおけるマルチホップ臨床モデリングのための動的ハイパーグラフに基づく深部診断
- Authors: Yuezhe Yang, Hao Wang, Yige Peng, Jinman Kim, Lei Bi,
- Abstract要約: 動的ハイパーグラフとテストタイムトレーニングによって臨床推論を再構築するフレームワークである textbfHyperWalker を提案する。
MIMICとEHRXQAの医療用VQAを用いたMRG実験は、HyperWalkerが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 11.582033617887573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated clinical diagnosis remains a core challenge in medical AI, which usually requires models to integrate multi-modal data and reason across complex, case-specific contexts. Although recent methods have advanced medical report generation (MRG) and visual question answering (VQA) with medical vision-language models (VLMs), these methods, however, predominantly operate under a sample-isolated inference paradigm, as such processing cases independently without access to longitudinal electronic health records (EHRs) or structurally related patient examples. This paradigm limits reasoning to image-derived information alone, which ignores external complementary medical evidence for potentially more accurate diagnosis. To overcome this limitation, we propose \textbf{HyperWalker}, a \textit{Deep Diagnosis} framework that reformulates clinical reasoning via dynamic hypergraphs and test-time training. First, we construct a dynamic hypergraph, termed \textbf{iBrochure}, to model the structural heterogeneity of EHR data and implicit high-order associations among multimodal clinical information. Within this hypergraph, a reinforcement learning agent, \textbf{Walker}, navigates to and identifies optimal diagnostic paths. To ensure comprehensive coverage of diverse clinical characteristics in test samples, we incorporate a \textit{linger mechanism}, a multi-hop orthogonal retrieval strategy that iteratively selects clinically complementary neighborhood cases reflecting distinct clinical attributes. Experiments on MRG with MIMIC and medical VQA on EHRXQA demonstrate that HyperWalker achieves state-of-the-art performance. Code is available at: https://github.com/Bean-Young/HyperWalker
- Abstract(参考訳): 自動化された臨床診断は、医療AIの中核的な課題であり、それは通常、複雑なケース固有のコンテキストにまたがって、マルチモーダルデータと推論を統合するモデルを必要とする。
近年の医療報告生成法 (MRG) と視覚質問応答法 (VQA) は医用視覚言語モデル (VLM) で行われているが, 主に試料分離型推論パラダイムの下で運用されている。
このパラダイムは、画像由来の情報のみに推論を制限し、より正確な診断のために外部補完的な医学的証拠を無視する。
この制限を克服するために,動的ハイパーグラフとテストタイムトレーニングによって臨床推論を再構築する,‘textbf{HyperWalker} フレームワークを提案する。
まず, EHRデータの構造的不均一性をモデル化し, マルチモーダルな臨床情報間の高次関連を暗黙的にモデル化するために, 動的ハイパーグラフである「textbf{iBrochure}」を構築した。
このハイパーグラフの中では、強化学習エージェント \textbf{Walker} が最適な診断パスをナビゲートし、識別する。
検査試料の多様な臨床特性を包括的に網羅的に把握するために,臨床特性を反映した臨床補完的近傍症例を反復的に選択する多角的直交検索戦略である「textit{linger mechanism}」を組み込んだ。
MIMICとEHRXQAの医療用VQAを用いたMRG実験は、HyperWalkerが最先端のパフォーマンスを達成することを示す。
コードは、https://github.com/Bean-Young/HyperWalkerで入手できる。
関連論文リスト
- MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction [1.7775777785480917]
MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップ・マルチクエリ検索戦略を統合したフレームワークである。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
論文 参考訳(メタデータ) (2025-08-26T13:31:01Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
MedPromptXはマルチモーダル大言語モデル(MLLM)、少数ショットプロンプト(FP)、ビジュアルグラウンド(VG)を統合した最初の臨床診断支援システムである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。