論文の概要: HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction
- arxiv url: http://arxiv.org/abs/2603.19957v1
- Date: Fri, 20 Mar 2026 13:58:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.160122
- Title: HiPath: Hierarchical Vision-Language Alignment for Structured Pathology Report Prediction
- Title(参考訳): HiPath: 構造病理の予測のための階層的視覚言語アライメント
- Authors: Ruicheng Yuan, Zhenxuan Zhang, Anbang Wang, Liwei Hu, Xiangqian Hua, Yaya Peng, Jiawei Luo, Guang Yang,
- Abstract要約: HiPathは、凍結したUNI2とQwen3のバックボーン上に構築された軽量な病理ビジョン言語フレームワークである。
HiPathは749Kのリアル・ワールド・チャイニーズ・サイコロジー・ケースで訓練されており、68.9%の厳格さと74.7%の臨床的に許容できる精度を97.3%の安全率で達成している。
- 参考スコア(独自算出の注目度): 5.151955122293638
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pathology reports are structured, multi-granular documents encoding diagnostic conclusions, histological grades, and ancillary test results across one or more anatomical sites; yet existing pathology vision-language models (VLMs) reduce this output to a flat label or free-form text. We present HiPath, a lightweight VLM framework built on frozen UNI2 and Qwen3 backbones that treats structured report prediction as its primary training objective. Three trainable modules totalling 15M parameters address complementary aspects of the problem: a Hierarchical Patch Aggregator (HiPA) for multi-image visual encoding, Hierarchical Contrastive Learning (HiCL) for cross-modal alignment via optimal transport, and Slot-based Masked Diagnosis Prediction (Slot-MDP) for structured diagnosis generation. Trained on 749K real-world Chinese pathology cases from three hospitals, HiPath achieves 68.9% strict and 74.7% clinically acceptable accuracy with a 97.3% safety rate, outperforming all baselines under the same frozen backbone. Cross-hospital evaluation confirms generalisation with only a 3.4pp drop in strict accuracy while maintaining 97.1% safety.
- Abstract(参考訳): 病理報告は1つ以上の解剖学的部位にわたる診断結論、組織学的成績、および補助的検査結果を符号化した多粒状文書が構成されているが、既存の病理ビジョン言語モデル(VLM)は、この出力をフラットラベルまたはフリーフォームテキストに還元している。
凍結したUNI2とQwen3のバックボーン上に構築された軽量なVLMフレームワークであるHiPathについて報告する。
マルチイメージ・ビジュアルエンコーディングのための階層的パッチ・アグリゲータ(HiPA)、最適なトランスポートによるクロスモーダルアライメントのための階層的コントラシブ・ラーニング(HiCL)、構造化診断生成のためのスロットベースのマスケ診断予測(Slot-MDP)である。
HiPathは3つの病院から749Kの実際の中国病理患者を訓練し、68.9%の厳格さと74.7%の臨床的に許容できる精度を97.3%の安全性で達成し、同じ冷凍バックボーンの下で全てのベースラインを上回っている。
クロスホスピタル評価は、97.1%の安全性を維持しながら、厳密な精度で3.4ppの精度で一般化を確認している。
関連論文リスト
- CTIS-QA: Clinical Template-Informed Slide-level Question Answering for Pathology [14.647193383163284]
臨床診断テンプレートに基づくパイプラインを導入し,病理情報を体系的に収集し,構成する。
CTIS-QAは、病理学者の診断アプローチを模倣した二重ストリームアーキテクチャを特徴とするスライドレベルの質問回答モデルである。
論文 参考訳(メタデータ) (2026-01-05T03:54:02Z) - Beyond Pixel Simulation: Pathology Image Generation via Diagnostic Semantic Tokens and Prototype Control [45.749134892112714]
セマンティクス駆動の病理画像生成フレームワークUniPathを紹介する。
UniPathは、Multi-Stream Control: a Raw-Text stream; a High-Level Semantics stream: a learnable query to a frozen pathology MLLM。
データ面では、2.65Mイメージテキストコーパスと、微調整で高品質な68Kサブセットをキュレートして、データの不足を軽減する。
実験によりUniPathのSOTA性能が実証され、Path-FIDは80.9(第2ベストより51%良い)で、セマンティックコントロールは98.7%の精度で実現された。
論文 参考訳(メタデータ) (2025-12-24T08:52:08Z) - MedForget: Hierarchy-Aware Multimodal Unlearning Testbed for Medical AI [66.0701326117134]
MedForgetは、階層型を意識したマルチモーダルなアンラーニングテストベッドで、準拠する医療AIシステムを構築する。
既存の手法は,診断性能を低下させることなく,完全かつ階層性に配慮した忘れの解決に苦慮していることを示す。
階層レベルのコンテキストをプロンプトに徐々に追加する再構成攻撃を導入する。
論文 参考訳(メタデータ) (2025-12-10T17:55:06Z) - MedXplain-VQA: Multi-Component Explainable Medical Visual Question Answering [1.4413073343064953]
MedXplain-VQAは、5つの説明可能なAIコンポーネントを統合し、解釈可能な医療画像分析を提供する包括的フレームワークである。
このフレームワークは、細調整されたBLIP-2バックボーン、医療クエリの修正、Grad-CAMの注意の強化、正確な領域抽出、マルチモーダル言語モデルによる構造的連鎖推論を活用する。
論文 参考訳(メタデータ) (2025-10-26T19:23:20Z) - YpathRAG:A Retrieval-Augmented Generation Framework and Benchmark for Pathology [16.03995342015096]
28のサブフィールドと133万の段落を含む病理ベクトルデータベースを構築した。
二重チャネルハイブリッド検索を用いた病理指向RAGフレームワークYpathRAGを提案する。
また,YpathRとYpathQA-Mの2つの評価ベンチマークもリリースした。
論文 参考訳(メタデータ) (2025-10-07T08:47:59Z) - The Next Layer: Augmenting Foundation Models with Structure-Preserving and Attention-Guided Learning for Local Patches to Global Context Awareness in Computational Pathology [23.32822092398391]
本稿では,予測と解釈性の向上を目的とした構造保存型注意誘導型MILアーキテクチャであるEAGLE-Netを提案する。
3種類のがんタイプ(10,260スライド)と7種類のがんタイプ(4,172スライド)を含む大規模な膵がんデータセットでベンチマークを行った。
論文 参考訳(メタデータ) (2025-08-27T14:19:38Z) - HySemRAG: A Hybrid Semantic Retrieval-Augmented Generation Framework for Automated Literature Synthesis and Methodological Gap Analysis [55.2480439325792]
HySemRAGは、Extract, Transform, Load (ETL)パイプラインとRetrieval-Augmented Generation (RAG)を組み合わせたフレームワークである。
システムは、マルチ層アプローチを通じて既存のRAGアーキテクチャの制限に対処する。
論文 参考訳(メタデータ) (2025-08-01T20:30:42Z) - Quantifying the Reasoning Abilities of LLMs on Real-world Clinical Cases [48.87360916431396]
MedR-Benchは1,453例の構造化患者のベンチマークデータセットで、推論基準を付した注釈付きである。
本稿では,3つの批判的診察勧告,診断決定,治療計画を含む枠組みを提案し,患者のケアジャーニー全体をシミュレートする。
このベンチマークを用いて、DeepSeek-R1、OpenAI-o3-mini、Gemini-2.0-Flash Thinkingなど、最先端の5つのLCMを評価した。
論文 参考訳(メタデータ) (2025-03-06T18:35:39Z) - SemioLLM: Evaluating Large Language Models for Diagnostic Reasoning from Unstructured Clinical Narratives in Epilepsy [45.2233252981348]
臨床知識を符号化するための言語モデル(LLM)が示されている。
6つの最先端モデルをベンチマークする評価フレームワークであるSemioLLMを提案する。
ほとんどのLSMは、脳内の発作発生領域の確率的予測を正確かつ確実に生成できることを示す。
論文 参考訳(メタデータ) (2024-07-03T11:02:12Z) - Self-supervised Answer Retrieval on Clinical Notes [68.87777592015402]
本稿では,ドメイン固有パスマッチングのためのトランスフォーマー言語モデルをトレーニングするためのルールベースのセルフスーパービジョンであるCAPRを紹介する。
目的をトランスフォーマーベースの4つのアーキテクチャ、コンテキスト文書ベクトル、ビ-、ポリエンコーダ、クロスエンコーダに適用する。
本稿では,ドメイン固有パスの検索において,CAPRが強いベースラインを上回り,ルールベースおよび人間ラベル付きパスを効果的に一般化することを示す。
論文 参考訳(メタデータ) (2021-08-02T10:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。