論文の概要: HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
- arxiv url: http://arxiv.org/abs/2601.13919v1
- Date: Tue, 20 Jan 2026 12:48:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.31007
- Title: HyperWalker: Dynamic Hypergraph-Based Deep Diagnosis for Multi-Hop Clinical Modeling across EHR and X-Ray in Medical VLMs
- Title(参考訳): HyperWalker: 医療用VLMにおけるマルチホップ臨床モデリングのための動的ハイパーグラフに基づく深部診断
- Authors: Yuezhe Yang, Hao Wang, Yige Peng, Jinman Kim, Lei Bi,
- Abstract要約: 動的ハイパーグラフとテストタイムトレーニングによって臨床推論を再構築するフレームワークである textbfHyperWalker を提案する。
MIMICとEHRXQAの医療用VQAを用いたMRG実験は、HyperWalkerが最先端のパフォーマンスを達成することを示す。
- 参考スコア(独自算出の注目度): 11.582033617887573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated clinical diagnosis remains a core challenge in medical AI, which usually requires models to integrate multi-modal data and reason across complex, case-specific contexts. Although recent methods have advanced medical report generation (MRG) and visual question answering (VQA) with medical vision-language models (VLMs), these methods, however, predominantly operate under a sample-isolated inference paradigm, as such processing cases independently without access to longitudinal electronic health records (EHRs) or structurally related patient examples. This paradigm limits reasoning to image-derived information alone, which ignores external complementary medical evidence for potentially more accurate diagnosis. To overcome this limitation, we propose \textbf{HyperWalker}, a \textit{Deep Diagnosis} framework that reformulates clinical reasoning via dynamic hypergraphs and test-time training. First, we construct a dynamic hypergraph, termed \textbf{iBrochure}, to model the structural heterogeneity of EHR data and implicit high-order associations among multimodal clinical information. Within this hypergraph, a reinforcement learning agent, \textbf{Walker}, navigates to and identifies optimal diagnostic paths. To ensure comprehensive coverage of diverse clinical characteristics in test samples, we incorporate a \textit{linger mechanism}, a multi-hop orthogonal retrieval strategy that iteratively selects clinically complementary neighborhood cases reflecting distinct clinical attributes. Experiments on MRG with MIMIC and medical VQA on EHRXQA demonstrate that HyperWalker achieves state-of-the-art performance. Code is available at: https://github.com/Bean-Young/HyperWalker
- Abstract(参考訳): 自動化された臨床診断は、医療AIの中核的な課題であり、それは通常、複雑なケース固有のコンテキストにまたがって、マルチモーダルデータと推論を統合するモデルを必要とする。
近年の医療報告生成法 (MRG) と視覚質問応答法 (VQA) は医用視覚言語モデル (VLM) で行われているが, 主に試料分離型推論パラダイムの下で運用されている。
このパラダイムは、画像由来の情報のみに推論を制限し、より正確な診断のために外部補完的な医学的証拠を無視する。
この制限を克服するために,動的ハイパーグラフとテストタイムトレーニングによって臨床推論を再構築する,‘textbf{HyperWalker} フレームワークを提案する。
まず, EHRデータの構造的不均一性をモデル化し, マルチモーダルな臨床情報間の高次関連を暗黙的にモデル化するために, 動的ハイパーグラフである「textbf{iBrochure}」を構築した。
このハイパーグラフの中では、強化学習エージェント \textbf{Walker} が最適な診断パスをナビゲートし、識別する。
検査試料の多様な臨床特性を包括的に網羅的に把握するために,臨床特性を反映した臨床補完的近傍症例を反復的に選択する多角的直交検索戦略である「textit{linger mechanism}」を組み込んだ。
MIMICとEHRXQAの医療用VQAを用いたMRG実験は、HyperWalkerが最先端のパフォーマンスを達成することを示す。
コードは、https://github.com/Bean-Young/HyperWalkerで入手できる。
関連論文リスト
- MMedExpert-R1: Strengthening Multimodal Medical Reasoning via Domain-Specific Adaptation and Clinical Guideline Reinforcement [63.82954136824963]
医療ビジョンランゲージモデルでは、現実世界のシナリオで必要とされる複雑な臨床推論を伴う知覚タスクが優れている。
本稿ではドメイン固有の適応とガイドライン強化を通じてこれらの課題に対処する新しい推論MedVLMを提案する。
論文 参考訳(メタデータ) (2026-01-16T02:32:07Z) - MIRNet: Integrating Constrained Graph-Based Reasoning with Pre-training for Diagnostic Medical Imaging [67.74482877175797]
MIRNetは、自己教師付き事前学習と制約付きグラフベースの推論を統合する新しいフレームワークである。
TongueAtlas-4Kは,22の診断ラベルを付した4,000枚の画像からなるベンチマークである。
論文 参考訳(メタデータ) (2025-11-13T06:30:41Z) - RAD: Towards Trustworthy Retrieval-Augmented Multi-modal Clinical Diagnosis [56.373297358647655]
Retrieval-Augmented Diagnosis (RAD)は、下流タスクで直接マルチモーダルモデルに外部知識を注入する新しいフレームワークである。
RADは、複数の医療ソースからの疾患中心の知識の検索と改善、ガイドライン強化コントラスト損失トランスフォーマー、デュアルデコーダの3つの主要なメカニズムで機能する。
論文 参考訳(メタデータ) (2025-09-24T10:36:14Z) - MedVQA-TREE: A Multimodal Reasoning and Retrieval Framework for Sarcopenia Prediction [1.7775777785480917]
MedVQA-TREEは階層的な画像解釈モジュール、ゲート機能レベルの融合機構、新しいマルチホップ・マルチクエリ検索戦略を統合したフレームワークである。
ゲート融合機構は、視覚的特徴をテキストクエリと選択的に統合し、臨床知識は、PubMedにアクセスするUMLS誘導パイプラインとサルコピア固有の外部知識ベースを介して検索する。
診断精度は99%まで向上し、従来の最先端の手法を10%以上上回った。
論文 参考訳(メタデータ) (2025-08-26T13:31:01Z) - DoctorAgent-RL: A Multi-Agent Collaborative Reinforcement Learning System for Multi-Turn Clinical Dialogue [18.814676128928234]
大規模言語モデル (LLMs) は, バイオメディカルな質問応答の分野で優れた能力を発揮してきたが, 実際の臨床研究への応用はいまだに課題に直面している。
我々は,医療相談を不確実性下での動的意思決定プロセスとしてモデル化する,強化学習(RL)に基づくマルチエージェント協調フレームワークであるOursを提案する。
本手法は,医療資源の配分を最適化し,労働力不足を緩和する戦略の草分けとして,時間的プレッシャーによる誤診リスクの低減,複雑な症例に対する臨床医の解放,医療資源配分の最適化,労働力不足の緩和など,極めて実践的な価値を示す。
論文 参考訳(メタデータ) (2025-05-26T07:48:14Z) - MoRE: Multi-Modal Contrastive Pre-training with Transformers on X-Rays, ECGs, and Diagnostic Report [4.340464264725625]
我々は,X線,心電図(ECG),放射線学・心臓医学報告を相乗的に組み合わせた,新しいマルチモーダルコントラスト事前学習フレームワークを提案する。
我々はLoRA-Peftを用いて、LLMにおけるトレーニング可能なパラメータを著しく削減し、視覚変換器(ViT)に最近の線形アテンション降下戦略を取り入れ、よりスムーズなアテンションを実現する。
我々の知る限り、我々はX線、心電図、放射線学・医学レポートをこの手法と組み合わせた統合モデルを提案している。
論文 参考訳(メタデータ) (2024-10-21T17:42:41Z) - Dr-LLaVA: Visual Instruction Tuning with Symbolic Clinical Grounding [53.629132242389716]
VLM(Vision-Language Models)は、医用画像を分析し、自然言語の相互作用に関与することによって、臨床医を支援する。
VLMはしばしば「幻覚的」な振る舞いを示し、文脈的マルチモーダル情報に基づかないテキスト出力を生成する。
本稿では,臨床推論の象徴的表現を用いて医療知識にVLMを基盤とする新たなアライメントアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-29T23:19:28Z) - MedPromptX: Grounded Multimodal Prompting for Chest X-ray Diagnosis [1.2903829793534272]
胸部X線像は急性および慢性の心肺疾患の予測に一般的に用いられている。
構造化された臨床データと統合する努力は、不完全な電子健康記録による課題に直面している。
MedPromptXはマルチモーダル大言語モデル(MLLM)、少数ショットプロンプト(FP)、ビジュアルグラウンド(VG)を統合した最初の臨床診断支援システムである。
その結果、MedPromptXのSOTA性能を示し、ベースラインに比べてF1スコアが11%向上した。
論文 参考訳(メタデータ) (2024-03-22T19:19:51Z) - HyperFusion: A Hypernetwork Approach to Multimodal Integration of Tabular and Medical Imaging Data for Predictive Modeling [4.44283662576491]
EHRの値と測定値に画像処理を条件付け,臨床画像と表層データを融合させるハイパーネットワークに基づく新しいフレームワークを提案する。
このアプローチは、これらのモダリティに存在する相補的な情報を活用し、様々な医療応用の精度を高めることを目的としている。
論文 参考訳(メタデータ) (2024-03-20T05:50:04Z) - AI Hospital: Benchmarking Large Language Models in a Multi-agent Medical Interaction Simulator [69.51568871044454]
我々は,emphDoctorをプレイヤとして,NPC間の動的医療相互作用をシミュレーションするフレームワークであるtextbfAI Hospitalを紹介した。
この設定は臨床シナリオにおけるLCMの現実的な評価を可能にする。
高品質な中国の医療記録とNPCを利用したマルチビュー医療評価ベンチマークを開発した。
論文 参考訳(メタデータ) (2024-02-15T06:46:48Z) - Scalable Online Disease Diagnosis via Multi-Model-Fused Actor-Critic
Reinforcement Learning [9.274138493400436]
医療のアドバイスをオンラインで求めている人にとっては、患者と対話して自動的に疾患を診断できるAIベースの対話エージェントが有効な選択肢だ。
これは、強化学習(RL)アプローチを自然解として提案した逐次的特徴(症状)選択と分類の問題として定式化することができる。
生成的アクターネットワークと診断批評家ネットワークから構成されるMMF-AC(Multi-Model-Fused Actor-Critic)フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T03:06:16Z) - Inheritance-guided Hierarchical Assignment for Clinical Automatic
Diagnosis [50.15205065710629]
臨床診断は、臨床ノートに基づいて患者に診断符号を割り当てることを目的としており、臨床意思決定において重要な役割を担っている。
本稿では,臨床自動診断のための継承誘導階層と共起グラフの伝播を組み合わせた新しい枠組みを提案する。
論文 参考訳(メタデータ) (2021-01-27T13:16:51Z) - Select-ProtoNet: Learning to Select for Few-Shot Disease Subtype
Prediction [55.94378672172967]
本研究は, 類似患者のサブグループを同定し, 数発の疾患のサブタイプ予測問題に焦点を当てた。
新しいモデルを開発するためにメタラーニング技術を導入し、関連する臨床課題から共通の経験や知識を抽出する。
我々の新しいモデルは、単純だが効果的なメタ学習マシンであるPrototypeal Networkと呼ばれる、慎重に設計されたメタラーナーに基づいて構築されている。
論文 参考訳(メタデータ) (2020-09-02T02:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。