論文の概要: PathoHR: Hierarchical Reasoning for Vision-Language Models in Pathology
- arxiv url: http://arxiv.org/abs/2509.06105v1
- Date: Sun, 07 Sep 2025 15:42:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-09 14:07:03.860091
- Title: PathoHR: Hierarchical Reasoning for Vision-Language Models in Pathology
- Title(参考訳): PathoHR:病理における視覚・言語モデルのための階層的推論
- Authors: Yating Huang, Ziyan Huang, Lintao Xiang, Qijun Yang, Hujun Yin,
- Abstract要約: 現在の視覚言語(VL)モデルは、構造化された病理報告の解釈に必要な複雑な推論を捉えるのに苦労することが多い。
病理領域内での階層的意味理解と構成的推論におけるVLモデルの能力を評価するために設計された新しいベンチマークであるPathoHR-Benchを提案する。
さらに、マルチモーダルコントラスト学習のための拡張および摂動サンプルを生成する、病理特異的なVLトレーニングスキームを導入する。
- 参考スコア(独自算出の注目度): 3.459714932882085
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate analysis of pathological images is essential for automated tumor diagnosis but remains challenging due to high structural similarity and subtle morphological variations in tissue images. Current vision-language (VL) models often struggle to capture the complex reasoning required for interpreting structured pathological reports. To address these limitations, we propose PathoHR-Bench, a novel benchmark designed to evaluate VL models' abilities in hierarchical semantic understanding and compositional reasoning within the pathology domain. Results of this benchmark reveal that existing VL models fail to effectively model intricate cross-modal relationships, hence limiting their applicability in clinical setting. To overcome this, we further introduce a pathology-specific VL training scheme that generates enhanced and perturbed samples for multimodal contrastive learning. Experimental evaluations demonstrate that our approach achieves state-of-the-art performance on PathoHR-Bench and six additional pathology datasets, highlighting its effectiveness in fine-grained pathology representation.
- Abstract(参考訳): 病理像の正確な解析は腫瘍診断の自動化に不可欠であるが,組織像に高い構造的類似性や微妙な形態的変化があるため,いまだに困難である。
現在の視覚言語(VL)モデルは、構造化された病理報告の解釈に必要な複雑な推論を捉えるのに苦労することが多い。
これらの制約に対処するために,病理領域内の階層的意味理解と構成的推論におけるVLモデルの能力を評価するために設計された新しいベンチマークPathoHR-Benchを提案する。
このベンチマークの結果、既存のVLモデルは複雑な相互関係を効果的にモデル化することができず、臨床環境での適用性が制限されることが判明した。
これを解決するために,マルチモーダルコントラスト学習のための拡張および摂動サンプルを生成する,病理特異的なVLトレーニングスキームを導入する。
実験により,PathoHR-Benchおよび6つの追加の病理データセット上での最先端性能が得られ,より微細な病理表現の有効性が示された。
関連論文リスト
- PathMR: Multimodal Visual Reasoning for Interpretable Pathology Diagnosis [9.728322291979564]
病理画像解析のための細胞レベルでのマルチモーダルビジュアル推論フレームワークであるPathMRを提案する。
PathMRは、テキスト生成品質、セグメンテーション精度、モーダルアライメントにおいて、最先端の視覚的推論手法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2025-08-28T14:46:24Z) - DiagR1: A Vision-Language Model Trained via Reinforcement Learning for Digestive Pathology Diagnosis [7.5173141954286775]
内視鏡的所見と診断結果の両方を含む大規模な消化管病理データセットを構築した。
この設計は、画像特有の特徴をよりよく捉え、生成時のセマンティック一貫性を維持するためにモデルを導く。
臨床関連度は18.7%, 構造的完全性は32.4%改善し, 診断誤差は41.2%減少した。
論文 参考訳(メタデータ) (2025-07-24T14:12:20Z) - PathoSCOPE: Few-Shot Pathology Detection via Self-Supervised Contrastive Learning and Pathology-Informed Synthetic Embeddings [42.42150241818321]
教師なしの病理検出では、非病理データに基づいて、偏差を病理としてモデル化する。
そこで我々は,少数の非病理サンプルのみを必要とする,数発の非教師付き病理診断フレームワークPathoSCOPEを提案する。
PathoSCOPEは計算効率(2.48 GFLOP, 166 FPS)を維持しながら教師なし手法の最先端性能を実現する
論文 参考訳(メタデータ) (2025-05-23T08:21:58Z) - Causal Disentanglement for Robust Long-tail Medical Image Generation [80.15257897500578]
そこで本研究では,病的特徴と構造的特徴を独立に生成する新しい医用画像生成フレームワークを提案する。
本稿では,病理所見から導かれる拡散モデルを用いて病理像をモデル化し,種々の対物画像の生成を可能にする。
論文 参考訳(メタデータ) (2025-04-20T01:54:18Z) - PathVLM-R1: A Reinforcement Learning-Driven Reasoning Model for Pathology Visual-Language Tasks [15.497221591506625]
病理画像に特化して設計された視覚言語モデルPathVLM-R1を提案する。
我々は,Qwen2.5-VL-7B-インストラクタをベースとして,厳密に設計したポストトレーニング戦略により,病理的タスクのパフォーマンスを向上させた。
論文 参考訳(メタデータ) (2025-04-12T15:32:16Z) - Fine-tuning Vision Language Models with Graph-based Knowledge for Explainable Medical Image Analysis [44.38638601819933]
現在の糖尿病網膜症(DR)のステージングモデルはほとんど解釈できない。
本稿では,グラフ表現学習を視覚言語モデル(VLM)と統合し,説明可能なDR診断を実現する手法を提案する。
論文 参考訳(メタデータ) (2025-03-12T20:19:07Z) - MIRROR: Multi-Modal Pathological Self-Supervised Representation Learning via Modality Alignment and Retention [52.106879463828044]
病理組織学と転写学は、腫瘍学の基本的なモダリティであり、疾患の形態学的および分子的側面を包含している。
モーダルアライメントと保持を両立させる新しいマルチモーダル表現学習法であるMIRRORを提案する。
がんの亜型化と生存分析のためのTCGAコホートに関する広範囲な評価は,MIRRORの優れた性能を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-03-01T07:02:30Z) - Harnessing Intra-group Variations Via a Population-Level Context for Pathology Detection [17.87825422578005]
本研究では,病理診断のための集団レベルのコンテキストの概念を導入し,オートエンコーダの潜在コードにグラフ理論のアプローチを適用した。
PopuSenseは、畳み込みモデルの局所的またはグローバル的文脈が見逃したり、滑らかになったりする生医学データに固有の追加のグループ内変異を捉えようとしている。
論文 参考訳(メタデータ) (2024-03-04T18:44:30Z) - Benchmarking Heterogeneous Treatment Effect Models through the Lens of
Interpretability [82.29775890542967]
治療のパーソナライズされた効果を見積もるのは複雑だが、普及している問題である。
ヘテロジニアス処理効果推定に関する機械学習文献の最近の進歩は、洗練されたが不透明なツールの多くを生み出した。
我々は、ポストホックな特徴重要度法を用いて、モデルの予測に影響を及ぼす特徴を特定する。
論文 参考訳(メタデータ) (2022-06-16T17:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。