Fugu-MT 論文翻訳(概要): Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning

論文の概要: Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning

arxiv url: http://arxiv.org/abs/2403.14616v1
Date: Thu, 21 Mar 2024 17:58:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 13:00:31.967115
Title: Hierarchical Text-to-Vision Self Supervised Alignment for Improved Histopathology Representation Learning
Title（参考訳）: 階層型テキスト・ビジョン・セルフ・ビジョン・アライメントによる組織学的表現学習の改善
Authors: Hasindri Watawana, Kanchana Ranasinghe, Tariq Mahmood, Muzammal Naseer, Salman Khan, Fahad Shahbaz Khan,
Abstract要約: 病理組織像のための新しい言語型自己教師学習フレームワーク,階層型言語型自己監督(HLSS)を提案する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。
参考スコア（独自算出の注目度）: 64.1316997189396
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Self-supervised representation learning has been highly promising for histopathology image analysis with numerous approaches leveraging their patient-slide-patch hierarchy to learn better representations. In this paper, we explore how the combination of domain specific natural language information with such hierarchical visual representations can benefit rich representation learning for medical image tasks. Building on automated language description generation for features visible in histopathology images, we present a novel language-tied self-supervised learning framework, Hierarchical Language-tied Self-Supervision (HLSS) for histopathology images. We explore contrastive objectives and granular language description based text alignment at multiple hierarchies to inject language modality information into the visual representations. Our resulting model achieves state-of-the-art performance on two medical imaging benchmarks, OpenSRH and TCGA datasets. Our framework also provides better interpretability with our language aligned representation space. Code is available at https://github.com/Hasindri/HLSS.
Abstract（参考訳）: 自己監督型表現学習は, 患者と患者の衝突・パッチの階層を活かし, より優れた表現を学習する多くのアプローチを用いて, 病理組織像解析に非常に有望である。本稿では,そのような階層的視覚表現とドメイン固有自然言語情報の組み合わせが,医用画像タスクの豊かな表現学習にどのように役立つかを検討する。病理画像に見る機能のための自動言語記述生成を基盤として,階層型言語型自己監督(HLSS)という,新しい言語型自己教師学習フレームワークを提案する。比較対象と言語記述に基づくテキストアライメントを複数階層で検討し、視覚表現に言語モダリティ情報を注入する。その結果,OpenSRH と TCGA の2つの医用画像ベンチマークにおいて,最先端の性能が得られた。私たちのフレームワークは、言語に整合した表現空間において、より優れた解釈可能性を提供します。コードはhttps://github.com/Hasindri/HLSSで入手できる。

関連論文リスト

Histopathology Image Report Generation by Vision Language Model with Multimodal In-Context Learning [27.49826980862286]
トレーニングセットから派生したコンテキストをマルチモーダルなインコンテキスト学習機構に統合する,PathGenICというインコンテキスト学習フレームワークを提案する。提案手法は意味論的に類似したスライド表現(WSI)-レポートペアを動的に検索し,適応的なフィードバックを取り入れてコンテキスト関連性と生成品質を向上させる。
論文参考訳（メタデータ） (2025-06-21T08:56:45Z)
Context-Aware Semantic Segmentation: Enhancing Pixel-Level Understanding with Large Language Models for Advanced Vision Applications [0.0]
本稿では,Large Language Models (LLM) と最先端のビジョンバックボーンを統合する新しいコンテキスト認識セマンティックフレームワークを提案する。視覚と言語の特徴を整合させるクロスアテンションメカニズムを導入し、モデルがコンテキストをより効果的に推論できるようにする。この研究は視覚と言語の間のギャップを埋め、自律運転、医療画像、ロボット工学などの応用における、よりインテリジェントでコンテキスト対応の視覚システムへの道を開く。
論文参考訳（メタデータ） (2025-03-25T02:12:35Z)
MedUnifier: Unifying Vision-and-Language Pre-training on Medical Data with Vision Generation Task using Discrete Visual Representations [13.991376926757036]
医療データに適した統合型ビジョンランゲージ事前学習フレームワークであるMedUnifierを提案する。 MedUnifierはテキスト基底画像生成機能とマルチモーダル学習戦略をシームレスに統合する。本手法では, 視覚ベクトル量子化を用いて, クロスモーダル理解のためのより密着的な学習戦略を実現するとともに, マルチモーダル生成品質を向上させる。
論文参考訳（メタデータ） (2025-03-02T21:09:32Z)
Efficient Few-Shot Medical Image Analysis via Hierarchical Contrastive Vision-Language Learning [44.99833362998488]
医用画像解析のための階層的コントラストアライメント(HiCA)を用いた適応型視覚言語ファインタニングを提案する。 HiCAは、ドメイン固有の事前学習と階層的コントラスト学習を組み合わせて、視覚的およびテキスト的表現を複数のレベルで整列させる。我々はChest X-rayとBreast Ultrasoundという2つのベンチマークデータセットに対するアプローチを評価した。
論文参考訳（メタデータ） (2025-01-16T05:01:30Z)
Compositional Entailment Learning for Hyperbolic Vision-Language Models [54.41927525264365]
画像とテキストのペアを超えて、双曲的埋め込みの自然的階層性を完全に活用する方法を示す。双曲型視覚言語モデルのための構成的包摂学習を提案する。数百万の画像テキストペアで訓練された双曲型視覚言語モデルに対する経験的評価は、提案手法が従来のユークリッドCLIP学習より優れていることを示している。
論文参考訳（メタデータ） (2024-10-09T14:12:50Z)
Emergent Visual-Semantic Hierarchies in Image-Text Representations [13.300199242824934]
既存の基盤モデルの知識について検討し、視覚・意味的階層の創発的な理解を示すことを明らかにする。本稿では,階層的理解の探索と最適化を目的としたRadial Embedding (RE)フレームワークを提案する。
論文参考訳（メタデータ） (2024-07-11T14:09:42Z)
CPLIP: Zero-Shot Learning for Histopathology with Comprehensive Vision-Language Alignment [40.811510317145675]
CPLIPは、病理組織学における画像とテキストのアライメントを強化する新しい教師なし技術である。複数の病理組織学的タスクで評価され、CPLIPはゼロショット学習シナリオにおいて顕著な改善を示した。さらなる研究とレプリケーションを促進するため、CPLIPのコードはGitHubで入手できる。
論文参考訳（メタデータ） (2024-06-07T18:39:58Z)
XCoOp: Explainable Prompt Learning for Computer-Aided Diagnosis via Concept-guided Context Optimization [4.634780391920529]
本稿では,画像,学習可能なプロンプト,臨床概念に基づくプロンプトのセマンティクスを整合させることにより,医療知識を活用する新しい説明可能なプロンプト学習フレームワークを提案する。我々のフレームワークは、大きな言語モデルから知識を引き出すことによって、価値ある概念アノテーションの欠如に対処する。提案手法は,XAIにおける基礎モデルの有効性に光を当て,優れた診断性能,柔軟性,解釈可能性を実現する。
論文参考訳（メタデータ） (2024-03-14T14:02:01Z)
Anatomical Structure-Guided Medical Vision-Language Pre-training [21.68719061251635]
医用視覚表現を学習するための解剖学的構造ガイド(ASG)フレームワークを提案する。解剖学的領域に対しては,放射線技師と協調して自動解剖学的領域文アライメントパラダイムを設計する。画像の特徴を各サンプル内の各タグに関連付けるために,画像タグ認識デコーダを適用して画像タグとみなす。
論文参考訳（メタデータ） (2024-03-14T11:29:47Z)
Visually-Situated Natural Language Understanding with Contrastive Reading Model and Frozen Large Language Models [24.456117679941816]
Contrastive Reading Model (Cream)は、Large Language Models (LLM)の言語画像理解能力を高めるために設計された、新しいニューラルネットワークである。我々のアプローチは、視覚と言語理解のギャップを埋め、より洗練されたドキュメントインテリジェンスアシスタントの開発の道を開く。
論文参考訳（メタデータ） (2023-05-24T11:59:13Z)
Coarse-to-Fine Contrastive Learning in Image-Text-Graph Space for Improved Vision-Language Compositionality [50.48859793121308]
対照的に訓練された視覚言語モデルは、視覚と言語表現学習において顕著な進歩を遂げた。近年の研究では、対象、属性、関係性に対して構成的推論を行う能力に厳しい制限が強調されている。
論文参考訳（メタデータ） (2023-05-23T08:28:38Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)
Neuro-Symbolic Representations for Video Captioning: A Case for Leveraging Inductive Biases for Vision and Language [148.0843278195794]
ビデオキャプションのためのマルチモーダルなニューラルシンボリック表現を学習するための新しいモデルアーキテクチャを提案する。本手法では,ビデオ間の関係を学習する辞書学習手法と,そのペアによるテキスト記述を用いる。
論文参考訳（メタデータ） (2020-11-18T20:21:19Z)
Improving Image Captioning with Better Use of Captions [65.39641077768488]
本稿では,画像表現とキャプション生成の両方を強化するために,キャプションで利用可能なセマンティクスをよりよく探求するための新しい画像キャプションアーキテクチャを提案する。我々のモデルはまず,弱教師付きマルチインスタンス学習を用いて,有益な帰納バイアスをもたらすキャプション誘導型視覚関係グラフを構築した。生成期間中、このモデルは、単語とオブジェクト/述語タグのシーケンスを共同で予測するために、マルチタスク学習を用いた視覚関係をさらに取り入れる。
論文参考訳（メタデータ） (2020-06-21T14:10:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。