論文の概要: PathVG: A New Benchmark and Dataset for Pathology Visual Grounding
- arxiv url: http://arxiv.org/abs/2502.20869v1
- Date: Fri, 28 Feb 2025 09:13:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:41:53.180793
- Title: PathVG: A New Benchmark and Dataset for Pathology Visual Grounding
- Title(参考訳): PathVG: 病理ビジュアルグラウンドのための新しいベンチマークとデータセット
- Authors: Chunlin Zhong, Shuang Hao, Junhua Wu, Xiaona Chang, Jiwei Jiang, Xiu Nie, He Tang, Xiang Bai,
- Abstract要約: そこで我々はPathVG(Pathology Visual Grounding)と呼ばれる新しいベンチマークを提案する。
実験の結果,病理表現の根底にある暗黙的な情報に最大の課題があることが判明した。
提案手法は,PathVGベンチマーク上での最先端性能を実現する。
- 参考スコア(独自算出の注目度): 45.21597220882424
- License:
- Abstract: With the rapid development of computational pathology, many AI-assisted diagnostic tasks have emerged. Cellular nuclei segmentation can segment various types of cells for downstream analysis, but it relies on predefined categories and lacks flexibility. Moreover, pathology visual question answering can perform image-level understanding but lacks region-level detection capability. To address this, we propose a new benchmark called Pathology Visual Grounding (PathVG), which aims to detect regions based on expressions with different attributes. To evaluate PathVG, we create a new dataset named RefPath which contains 27,610 images with 33,500 language-grounded boxes. Compared to visual grounding in other domains, PathVG presents pathological images at multi-scale and contains expressions with pathological knowledge. In the experimental study, we found that the biggest challenge was the implicit information underlying the pathological expressions. Based on this, we proposed Pathology Knowledge-enhanced Network (PKNet) as the baseline model for PathVG. PKNet leverages the knowledge-enhancement capabilities of Large Language Models (LLMs) to convert pathological terms with implicit information into explicit visual features, and fuses knowledge features with expression features through the designed Knowledge Fusion Module (KFM). The proposed method achieves state-of-the-art performance on the PathVG benchmark.
- Abstract(参考訳): 計算病理学の急速な発展に伴い、多くのAI支援診断タスクが登場した。
細胞核のセグメンテーションは、下流分析のために様々な種類の細胞を分割することができるが、事前に定義されたカテゴリに依存し、柔軟性に欠ける。
さらに、画像レベルの理解は可能であるが、領域レベルの検出能力に欠ける。
そこで我々はPathVG(Pathology Visual Grounding)と呼ばれる新しいベンチマークを提案する。
PathVGを評価するために、新たにRefPathというデータセットを作成しました。
PathVGは、他の領域の視覚的接地と比較して、マルチスケールで病理像を提示し、病理知識を持つ表現を含む。
実験の結果,病理表現の根底にある暗黙的な情報に最大の課題があることが判明した。
そこで我々はPathVGのベースラインモデルとしてPathology Knowledge-enhanced Network (PKNet)を提案する。
PKNetは、LLM(Large Language Models)の知識強化機能を活用して、暗黙的な情報を持つ病理用語を明示的な視覚的特徴に変換するとともに、設計された知識融合モジュール(KFM)を通じて、表現機能と知識機能を融合する。
提案手法は,PathVGベンチマーク上での最先端性能を実現する。
関連論文リスト
- Mind the Gap: Evaluating Patch Embeddings from General-Purpose and Histopathology Foundation Models for Cell Segmentation and Classification [0.20971479389679332]
一貫性のあるデコーダと各種エンコーダを備えたエンコーダデコーダアーキテクチャを実装した。
インスタンスレベルの検出,セグメンテーションの精度,および細胞型分類を評価した。
本研究は、一般目的と病理組織学の基礎モデルの比較強度と限界に関する知見を提供する。
論文 参考訳(メタデータ) (2025-02-04T16:47:00Z) - Path-RAG: Knowledge-Guided Key Region Retrieval for Open-ended Pathology Visual Question Answering [38.86674352317965]
そこで我々はPath-RAGという新しいフレームワークを提案し,病理画像から関連分野の知識を抽出する。
実験の結果,LLaVA-Medの精度は38%から47%に向上することが示唆された。
長文の質問と回答のペアに対して、我々のモデルは一貫して32.5%のARCH-Open PubMed、30.6%のARCH-Open Books on H&E imageを実現している。
論文 参考訳(メタデータ) (2024-11-26T03:22:01Z) - PFPs: Prompt-guided Flexible Pathological Segmentation for Diverse Potential Outcomes Using Large Vision and Language Models [12.895542069443438]
セグメンテーションの柔軟性を高めるために,従来のタスクトークンと並行して,LLM(Large Language Model)を通じて様々なタスクプロンプトを導入する。
コントリビューションは,(1)フレキシブルなマルチクラスセグメンテーションを誘導するために微調整言語プロンプトを用いた計算効率の高いパイプラインを構築し,(2)セグメンテーション性能を自由テキストに対する固定プロンプトと比較し,(3)マルチタスク腎病理セグメンテーションデータセットとそれに対応する各種自由テキストプロンプトを設計する。
論文 参考訳(メタデータ) (2024-07-13T18:51:52Z) - Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。
ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文 参考訳(メタデータ) (2024-04-15T17:11:25Z) - Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。
その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文 参考訳(メタデータ) (2024-03-21T17:58:56Z) - UniCell: Universal Cell Nucleus Classification via Prompt Learning [76.11864242047074]
ユニバーサル細胞核分類フレームワーク(UniCell)を提案する。
異なるデータセットドメインから対応する病理画像のカテゴリを均一に予測するために、新しいプロンプト学習機構を採用している。
特に,本フレームワークでは,原子核検出と分類のためのエンドツーエンドアーキテクチャを採用し,フレキシブルな予測ヘッドを用いて様々なデータセットを適応する。
論文 参考訳(メタデータ) (2024-02-20T11:50:27Z) - HistoSegCap: Capsules for Weakly-Supervised Semantic Segmentation of
Histological Tissue Type in Whole Slide Images [19.975420988169454]
デジタル病理学では、物理的組織スライドを高解像度の全体スライド画像(WSI)に変換する。
多数の顕微鏡フィールドを持つ大きな組織学スライドは、ビジュアルサーチの課題を提起する。
コンピュータ支援診断システム(CAD)は、WSIを効率的に検査し、診断に関連のある領域を識別するための視覚的補助を提供する。
論文 参考訳(メタデータ) (2024-02-16T17:44:11Z) - MLIP: Enhancing Medical Visual Representation with Divergence Encoder
and Knowledge-guided Contrastive Learning [48.97640824497327]
本稿では、画像テキストのコントラスト学習を通じて、言語情報を視覚領域に統合するための案内信号として、ドメイン固有の医療知識を活用する新しいフレームワークを提案する。
我々のモデルには、設計した分散エンコーダによるグローバルコントラスト学習、局所トークン・知識・パッチアライメントコントラスト学習、知識誘導型カテゴリレベルのコントラスト学習、エキスパートナレッジによるコントラスト学習が含まれる。
特に、MLIPは、限られた注釈付きデータであっても最先端の手法を超越し、医療表現学習の進歩におけるマルチモーダル事前学習の可能性を強調している。
論文 参考訳(メタデータ) (2024-02-03T05:48:50Z) - The Whole Pathological Slide Classification via Weakly Supervised
Learning [7.313528558452559]
細胞核疾患と病理タイルの空間的相関の2つの病因を考察した。
本研究では,抽出器訓練中の汚れ分離を利用したデータ拡張手法を提案する。
次に,隣接行列を用いてタイル間の空間的関係を記述する。
これら2つのビューを統合することで,H&E染色組織像を解析するためのマルチインスタンス・フレームワークを設計した。
論文 参考訳(メタデータ) (2023-07-12T16:14:23Z) - EBOCA: Evidences for BiOmedical Concepts Association Ontology [55.41644538483948]
本論文は,生物医学領域の概念とそれらの関連性を記述するオントロジーであるEBOCAと,それらの関連性を支持するエビデンスを提案する。
DISNETのサブセットから得られるテストデータとテキストからの自動アソシエーション抽出が変換され、実際のシナリオで使用できる知識グラフが作成されるようになった。
論文 参考訳(メタデータ) (2022-08-01T18:47:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。