論文の概要: Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning
- arxiv url: http://arxiv.org/abs/2407.14904v1
- Date: Sat, 20 Jul 2024 15:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 20:09:56.901321
- Title: Large-vocabulary forensic pathological analyses via prototypical cross-modal contrastive learning
- Title(参考訳): 原型的クロスモーダルコントラスト学習による大語彙法医学的病理解析
- Authors: Chen Shen, Chunfeng Lian, Wanqing Zhang, Fan Wang, Jianhua Zhang, Shuanliang Fan, Xin Wei, Gongji Wang, Kehan Li, Hongshu Mu, Hao Wu, Xinggong Liang, Jianhua Ma, Zhenyuan Wang,
- Abstract要約: SongCiは、法医学的な病理学に特化して設計された革新的な視覚言語モデル(VLM)である。
SongCiは、高度なクロスモーダルな自己教師付きコントラスト学習を利用して、法医学解析の精度、効率、一般化性を向上させる。
- 参考スコア(独自算出の注目度): 20.3729821685966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Forensic pathology is critical in determining the cause and manner of death through post-mortem examinations, both macroscopic and microscopic. The field, however, grapples with issues such as outcome variability, laborious processes, and a scarcity of trained professionals. This paper presents SongCi, an innovative visual-language model (VLM) designed specifically for forensic pathology. SongCi utilizes advanced prototypical cross-modal self-supervised contrastive learning to enhance the accuracy, efficiency, and generalizability of forensic analyses. It was pre-trained and evaluated on a comprehensive multi-center dataset, which includes over 16 million high-resolution image patches, 2,228 vision-language pairs of post-mortem whole slide images (WSIs), and corresponding gross key findings, along with 471 distinct diagnostic outcomes. Our findings indicate that SongCi surpasses existing multi-modal AI models in many forensic pathology tasks, performs comparably to experienced forensic pathologists and significantly better than less experienced ones, and provides detailed multi-modal explainability, offering critical assistance in forensic investigations. To the best of our knowledge, SongCi is the first VLM specifically developed for forensic pathological analysis and the first large-vocabulary computational pathology (CPath) model that directly processes gigapixel WSIs in forensic science.
- Abstract(参考訳): 法医学的病理学は、大まかにも顕微鏡的にも、死後の検査を通じて死因や死因を決定するのに重要である。
しかし、この分野は、成果の多様性、厳しいプロセス、訓練された専門家の不足といった問題に悩まされている。
本稿では,法医学的病理学に特化して設計された革新的視覚言語モデル(VLM)であるSongCiについて述べる。
SongCiは、先進的な原型横断型自己教師型コントラスト学習を利用して、法医学解析の精度、効率、一般化性を向上させる。
このデータセットは、1600万以上の高解像度画像パッチ、2,228の視覚言語対のモーテム全スライド画像(WSI)を含む総合的なマルチセンターデータセットで事前訓練され、評価され、さらに471の診断結果が得られた。
以上の結果から,SongCiは既存のマルチモーダルAIモデルよりも多くの法医学的病理学タスクを超越し,経験豊富な法医学的病理学者と相性がよく,経験の少ないものよりもはるかに優れており,詳細なマルチモーダル説明可能性を提供し,法医学的調査に重要な支援を提供することが示された。
我々の知る限り、SongCiは法医学的な病理解析のために開発された最初のVLMであり、法医学においてギガピクセルWSIを直接処理する最初の大語彙計算病理(CPath)モデルである。
関連論文リスト
- Efficient and Comprehensive Feature Extraction in Large Vision-Language Model for Clinical Pathology Analysis [34.199766079609795]
病理診断は疾患の特徴の決定、治療指導、予後評価に不可欠である。
従来の純粋な視覚モデルは、冗長な特徴抽出の課題に直面している。
既存の視覚言語モデル(LVLM)は、入力解像度の制約によって制限され、その効率と精度を損なう。
課題誘導型機能拡張と課題誘導型詳細機能補完の2つの革新的戦略を提案する。
論文 参考訳(メタデータ) (2024-12-12T18:07:23Z) - Deep Learning with HM-VGG: AI Strategies for Multi-modal Image Analysis [10.01246918773756]
本研究では,緑内障早期診断のための最先端深層学習手法であるHybrid Multi-modal VGGモデルを提案する。
モデルの性能は、精度、精度、F1スコアにおける高い指標によって裏付けられている。
HM-VGGモデルは、医師に有望なツールを提供し、診断プロセスを合理化し、患者の結果を改善する。
論文 参考訳(メタデータ) (2024-10-31T15:42:24Z) - ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。
このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。
視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文 参考訳(メタデータ) (2024-09-24T05:01:23Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Evaluating LLM -- Generated Multimodal Diagnosis from Medical Images and
Symptom Analysis [2.4554686192257424]
大規模言語モデル(LLM)は最先端の人工知能技術である。
マルチモーダル多重選択質問紙を用いたLCMによる診断の正確性および正確性について検討した。
病理学の広い知識領域に含まれる幅広い疾患, 病態, 化学物質, 関連エンティティタイプについて検討した。
論文 参考訳(メタデータ) (2024-01-28T09:25:12Z) - An Empirical Analysis for Zero-Shot Multi-Label Classification on
COVID-19 CT Scans and Uncurated Reports [0.5527944417831603]
パンデミックは、医学検査の増加により、放射線学の報告を含む、膨大な構造化されていないデータのリポジトリに繋がった。
新型コロナウイルスの自動診断に関するこれまでの研究は、CT(Computed tomography)スキャンと比較して精度が低いにもかかわらず、主にX線画像に焦点を当てていた。
本研究では,病院の非構造データを活用し,CTスキャンによって提供される細かな細部を利用して,対照的な視覚言語学習に基づくゼロショット多ラベル分類を行う。
論文 参考訳(メタデータ) (2023-09-04T17:58:01Z) - Validating polyp and instrument segmentation methods in colonoscopy through Medico 2020 and MedAI 2021 Challenges [58.32937972322058]
メディコオートマチックポリープセグメンテーション(Medico 2020)と「メディコ:医療画像の透明性(MedAI 2021)」コンペティション。
本報告では, それぞれのコントリビューションを包括的に分析し, ベストパフォーマンスメソッドの強さを強調し, クリニックへの臨床翻訳の可能性について考察する。
論文 参考訳(メタデータ) (2023-07-30T16:08:45Z) - A Transformer-based representation-learning model with unified
processing of multimodal input for clinical diagnostics [63.106382317917344]
本稿では,マルチモーダル入力を統一的に処理する臨床診断支援として,トランスフォーマーを用いた表現学習モデルについて報告する。
統一モデルは, 肺疾患の同定において, 画像のみのモデル, 非統一型マルチモーダル診断モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-01T16:23:47Z) - Multi-Task Learning for Post-transplant Cause of Death Analysis: A Case
Study on Liver Transplant [65.85767739748901]
移植後の死因は、臨床的意思決定の強力なツールである。
Model for End-stage Liver Disease (MELD) スコアや従来の機械学習 (ML) メソッドのような従来の手法は、CoD 解析において限られている。
我々は,多タスク学習を利用したCoD-MTLと呼ばれる新しいフレームワークを提案し,様々なCoD予測タスク間の意味関係をモデル化する。
論文 参考訳(メタデータ) (2023-03-30T01:31:49Z) - MIMO: Mutual Integration of Patient Journey and Medical Ontology for
Healthcare Representation Learning [49.57261599776167]
本稿では、医療表現学習と予測分析のための、エンドツーエンドの堅牢なトランスフォーマーベースのソリューション、患者旅行の相互統合、医療オントロジー(MIMO)を提案する。
論文 参考訳(メタデータ) (2021-07-20T07:04:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。