Fugu-MT 論文翻訳(概要): Towards a Visual-Language Foundation Model for Computational Pathology

論文の概要: Towards a Visual-Language Foundation Model for Computational Pathology

arxiv url: http://arxiv.org/abs/2307.12914v2
Date: Tue, 25 Jul 2023 17:56:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-26 19:43:35.035153
Title: Towards a Visual-Language Foundation Model for Computational Pathology
Title（参考訳）: 計算病理学のための視覚言語基礎モデルに向けて
Authors: Ming Y. Lu, Bowen Chen, Drew F. K. Williamson, Richard J. Chen, Ivy Liang, Tong Ding, Guillaume Jaume, Igor Odintsov, Andrew Zhang, Long Phi Le, Georg Gerber, Anil V Parwani, Faisal Mahmood
Abstract要約: 病理組織学(CONCH)におけるコントラスト学習について紹介する。 CONCHは、様々な組織像、生医学的テキスト、タスクに依存しない事前トレーニングのソースを用いて開発された視覚言語基盤モデルである。 13種類の多様なベンチマークで評価され, 画像分類, セグメンテーション, キャプション, テキスト・ツー・イメージ検索, 画像・テキスト検索における最先端のパフォーマンスを達成している。
参考スコア（独自算出の注目度）: 5.72536252929528
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: The accelerated adoption of digital pathology and advances in deep learning have enabled the development of powerful models for various pathology tasks across a diverse array of diseases and patient cohorts. However, model training is often difficult due to label scarcity in the medical domain and the model's usage is limited by the specific task and disease for which it is trained. Additionally, most models in histopathology leverage only image data, a stark contrast to how humans teach each other and reason about histopathologic entities. We introduce CONtrastive learning from Captions for Histopathology (CONCH), a visual-language foundation model developed using diverse sources of histopathology images, biomedical text, and notably over 1.17 million image-caption pairs via task-agnostic pretraining. Evaluated on a suite of 13 diverse benchmarks, CONCH can be transferred to a wide range of downstream tasks involving either or both histopathology images and text, achieving state-of-the-art performance on histology image classification, segmentation, captioning, text-to-image and image-to-text retrieval. CONCH represents a substantial leap over concurrent visual-language pretrained systems for histopathology, with the potential to directly facilitate a wide array of machine learning-based workflows requiring minimal or no further supervised fine-tuning.
Abstract（参考訳）: デジタル病理学の急速な普及とディープラーニングの進歩により、様々な疾患や患者コホートにまたがる様々な病理タスクの強力なモデルの開発が可能となった。しかし、医療領域におけるラベル不足のため、モデルのトレーニングは困難であり、モデルの使用は、訓練される特定のタスクや病気によって制限される。さらに、ほとんどの病理学モデルは画像データのみを利用しており、ヒトが互いに教え合う方法と、病理学の実体について推論する手法とは対照的である。本稿では, 様々な組織像, バイオメディカルテキスト, タスク非依存の事前学習による117万枚以上の画像キャプチャーペアを用いた視覚言語基盤モデルであるContrastive Learning from Captions for Histopathology (CONCH)を紹介する。 13の多様なベンチマークで評価されたconchは、病理組織像とテキストの両方を含む幅広い下流タスクに転送でき、組織像の分類、セグメンテーション、キャプション、テキスト対テキスト検索、画像対テキスト検索の最先端のパフォーマンスを達成している。 CONCHは、病理学のための並行的な視覚言語事前訓練システムに対する大きな飛躍であり、最小またはそれ以上の教師付き微調整を必要とする機械学習ベースのワークフローを直接的に促進する可能性がある。

関連論文リスト

Evidence-based diagnostic reasoning with multi-agent copilot for human pathology [7.976907866539546]
現在の計算病理学におけるMLLM(Multimodal Large Language Model)は限界に直面している。そこで我々は,ヒトの病理に特化して設計された新しいMLLMであるPathChat+を紹介した。また、PathChat+を利用した推論可能なマルチエージェントAIシステムであるSlideSeekを紹介し、ギガピクセル全体の画像を自律的に評価する。
論文参考訳（メタデータ） (2025-06-26T03:02:16Z)
MGPATH: Vision-Language Model with Multi-Granular Prompt Learning for Few-Shot WSI Classification [19.29480118378639]
全スライド画像分類は、ギガピクセル画像サイズと限定アノテーションラベルによる課題を提示する。本稿では,数ショットの病理分類に大規模な視覚言語モデルを適用するための素早い学習手法を提案する。
論文参考訳（メタデータ） (2025-02-11T09:42:13Z)
Autoregressive Sequence Modeling for 3D Medical Image Representation [48.706230961589924]
本稿では, 自己回帰シーケンス事前学習フレームワークを用いて, 3次元医用画像表現を学習するための先駆的手法を提案する。我々は,空間的,コントラスト的,意味的相関に基づく様々な3次元医用画像にアプローチし,トークンシーケンス内の相互接続された視覚トークンとして扱う。
論文参考訳（メタデータ） (2024-09-13T10:19:10Z)
GPC: Generative and General Pathology Image Classifier [2.6954348706500766]
本稿では,GPCと呼ばれるタスク依存型画像分類器を提案する。 GPCは、病理画像を高次元の特徴空間にマッピングし、テキストとして関連するクラスラベルを生成する。我々は,4つの病理画像分類タスクに対して,GPCを6つのデータセットで評価した。
論文参考訳（メタデータ） (2024-07-12T06:54:31Z)
Towards a text-based quantitative and explainable histopathology image analysis [4.064178811354613]
テキストベースの定量的・説明可能な病理画像解析を提案し,これをTQxと呼ぶ。検索した単語は、病理像を定量化し、理解可能な特徴埋め込みを生成するために使用される。その結果、TQxは、計算病理学における一般的な視覚モデルに匹敵する病理像を定量化し、分析できることを示した。
論文参考訳（メタデータ） (2024-07-10T04:33:43Z)
Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文参考訳（メタデータ） (2024-04-27T05:03:42Z)
Knowledge-enhanced Visual-Language Pretraining for Computational Pathology [68.6831438330526]
本稿では,公共資源から収集した大規模画像テキストペアを利用した視覚的表現学習の課題について考察する。ヒト32組織から病理診断を必要とする4,718の疾患に対して50,470個の情報属性からなる病理知識ツリーをキュレートする。
論文参考訳（メタデータ） (2024-04-15T17:11:25Z)
Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning [64.1316997189396]
病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
論文参考訳（メタデータ） (2024-03-21T17:58:56Z)
In-context learning enables multimodal large language models to classify cancer pathology images [0.7085801706650957]
言語処理では、コンテキスト内学習(in-context learning)は、モデルがプロンプト内で学習し、パラメータ更新の必要性を回避できる代替手段を提供する。そこで本研究では,GPT-4V(Generative Pretrained Transformer 4 with Vision (GPT-4V)) を用いたがん画像処理モデルの評価を行った。この結果から,テキスト内学習は特定のタスクで訓練された特殊なニューラルネットワークに適合したり,あるいは性能を向上するのに十分であり,最小限のサンプルしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-03-12T08:34:34Z)
Text-guided Foundation Model Adaptation for Pathological Image Classification [40.45252665455015]
本稿では、画像とテキストの埋め込み(CITE)を結合して、病理画像分類を強化することを提案する。 CITEは、幅広いバイオメディカルテキストで事前訓練された言語モデルから得られたテキスト洞察を注入し、病理画像理解に基礎モデルを適用する。
論文参考訳（メタデータ） (2023-07-27T14:44:56Z)
Learning to Exploit Temporal Structure for Biomedical Vision-Language Processing [53.89917396428747]
視覚言語処理における自己教師あり学習は、画像とテキストのモダリティのセマンティックアライメントを利用する。トレーニングと微調整の両方で利用できる場合、事前のイメージとレポートを明示的に説明します。我々のアプローチはBioViL-Tと呼ばれ、テキストモデルと共同で訓練されたCNN-Transformerハイブリッドマルチイメージエンコーダを使用する。
論文参考訳（メタデータ） (2023-01-11T16:35:33Z)
Self-Supervised Vision Transformers Learn Visual Concepts in Histopathology [5.164102666113966]
我々は、様々な弱い教師付きおよびパッチレベルのタスクに対する検証を行い、様々な自己教師付きモデルを訓練することにより、病理学における良い表現を探索する。我々の重要な発見は、DINOベースの知識蒸留を用いたビジョントランスフォーマーが、組織像におけるデータ効率と解釈可能な特徴を学習できることを発見したことである。
論文参考訳（メタデータ） (2022-03-01T16:14:41Z)
Few-shot Medical Image Segmentation using a Global Correlation Network with Discriminative Embedding [60.89561661441736]
医療画像分割のための新しい手法を提案する。深層畳み込みネットワークを用いた数ショット画像セグメンタを構築します。深層埋め込みの識別性を高め,同一クラスの特徴領域のクラスタリングを促進する。
論文参考訳（メタデータ） (2020-12-10T04:01:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。