Fugu-MT 論文翻訳(概要): Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning

論文の概要: Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning

arxiv url: http://arxiv.org/abs/2309.05904v2
Date: Mon, 18 Sep 2023 01:23:52 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-19 22:06:29.837380
Title: Enhancing Representation in Radiography-Reports Foundation Model: A Granular Alignment Algorithm Using Masked Contrastive Learning
Title（参考訳）: radiography-reports foundation modelにおける表現の強化 : masked contrastive learningを用いた粒状アライメントアルゴリズム
Authors: Weijian Huang and Cheng Li and Hao Yang and Jiarun Liu and Shanshan Wang
Abstract要約: MaCoは、マスク付きコントラスト学習を探求し、様々な医療画像タスクに対して、きめ細かいアライメントとゼロショット学習を実現する、新しいマルチモーダル医療基盤モデルである。 6つの有名なオープンソースX線データセット上でMaCoを評価し, 実験結果から, 分類, セグメンテーション, ゼロショット位相グラウンドニングにおいて, 最先端の7つのアプローチよりも優れた結果を得た。
参考スコア（独自算出の注目度）: 8.717599327516822
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, multi-modal vision-language foundation models have gained significant attention in the medical field. While these models offer great opportunities, they still face a number of challenges, such as the requirement for fine-grained knowledge understanding in computer-aided diagnosis and capability of utilizing very limited or no task-specific labeled data in real-world clinical applications. In this study, we present MaCo, a novel multi-modal medical foundation model that explores masked contrastive learning to achieve granular alignment and zero-shot learning for a variety of medical imaging tasks. MaCo incorporates a correlation weighting mechanism to adjust the correlation between masked image patches and their corresponding reports, thereby enhancing the representation learning capabilities. We evaluate MaCo on six well-known open-source X-ray datasets, and the experimental results show it outperforms seven state-of-the-art approaches for classification, segmentation, and zero-shot phase grounding, demonstrating its great potential to promote a wide range of medical image analysis tasks.
Abstract（参考訳）: 近年,医療分野では多モード視覚言語基盤モデルが注目されている。これらのモデルは大きな機会を提供するが、コンピュータ支援診断におけるきめ細かい知識の理解の必要性や、実際の臨床応用におけるタスク固有のラベル付きデータの利用能力など、多くの課題に直面している。本研究では,マルチモーダルな医療基盤モデルであるMaCoについて述べる。マスク付きコントラスト学習を用いて,様々な医用画像処理タスクに対して,微粒化とゼロショット学習を実現する。 MaCoには相関重み付け機構が組み込まれており、マスク画像パッチとその対応レポートの相関を調整し、表現学習能力を向上させる。我々は,オープンソースのx線データセット6種についてmacoを評価し,その結果,分類,セグメンテーション,ゼロショット位相法における7つの最先端手法を上回っており,医療画像解析タスクを広範に促進する大きな可能性を示している。

関連論文リスト

MV-MLM: Bridging Multi-View Mammography and Language for Breast Cancer Diagnosis and Risk Prediction [2.7165660672916787]
VLM(Vision-Language Models)は、医療画像タスクにおける悪性度とデータ効率を高めることで、有望なソリューションを提供する。本稿では,乳がんの分類とリスク予測のためのマルチビューマンモグラフィーと言語モデルを提案する。
論文参考訳（メタデータ） (2025-10-30T05:12:29Z)
Multitask Multimodal Self-Supervised Learning for Medical Images [3.655021726150368]
この論文は、自己指導型学習技術とドメイン適応手法の開発に焦点を当てている。ラベルのないデータから意味のある情報を抽出できる新しいプリテキストタスクを導入している。このアプローチは、MedMNISTデータセットの使用を含む厳密な実験を通じて検証される。
論文参考訳（メタデータ） (2025-10-27T13:42:16Z)
Knowledge-Augmented Language Models Interpreting Structured Chest X-Ray Findings [44.99833362998488]
本稿では,胸部X線解釈に強力なテキスト中心言語モデルを利用する新しいフレームワークであるCXR-TextInterを紹介する。我々は,このLCM中心のアプローチを統合医療知識モジュールで強化し,臨床推論を強化する。我々の研究は医療画像AIの代替パラダイムを検証し、高度なLLM機能を活用する可能性を示している。
論文参考訳（メタデータ） (2025-05-03T06:18:12Z)
A Generative Framework for Bidirectional Image-Report Understanding in Chest Radiography [1.2289361708127877]
Multi-Stage Adaptive Vision-Language Tuning (MAViLT)は、視覚に基づく理解のためのマルチモーダル推論と生成を強化するために設計された新しいフレームワークである。 MAViLTは、臨床勾配重み付きトークン化プロセスと階層的な微調整戦略を取り入れており、正確な放射線学レポートを生成し、テキストから現実的なCXRを合成し、視覚に基づく臨床質問に答えることができる。我々は、MIMIC-CXRとインディアナ大学CXRの2つのベンチマークデータセット上でMAViLTを評価し、すべてのタスクで最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-09T15:02:57Z)
MRGen: Segmentation Data Engine For Underrepresented MRI Modalities [59.61465292965639]
稀ながら臨床的に重要な画像モダリティのための医用画像分割モデルの訓練は、注釈付きデータの不足により困難である。本稿では、生成モデルを利用してトレーニングデータを合成し、未表現のモダリティに対するセグメンテーションモデルを訓練する。
論文参考訳（メタデータ） (2024-12-04T16:34:22Z)
Towards a vision foundation model for comprehensive assessment of Cardiac MRI [11.838157772803282]
心臓磁気共鳴画像(CMR)評価のための視覚基礎モデルを提案する。 CMRワークフローに典型的な9つの臨床的タスクについて、教師付き方法でモデルを微調整する。すべてのタスクにおいて、ラベル付きデータセットサイズの範囲で、精度と堅牢性が改善されたことを実証する。
論文参考訳（メタデータ） (2024-10-02T15:32:01Z)
ViKL: A Mammography Interpretation Framework via Multimodal Aggregation of Visual-knowledge-linguistic Features [54.37042005469384]
MVKLは,マルチビュー画像,詳細な表示,報告を含む最初のマルチモーダルマンモグラフィーデータセットである。このデータセットに基づいて、教師なし事前学習のチャラリングタスクに焦点を当てる。視覚,知識,言語機能を相乗化するフレームワークであるViKLを提案する。
論文参考訳（メタデータ） (2024-09-24T05:01:23Z)
COIN: Counterfactual inpainting for weakly supervised semantic segmentation for medical images [3.5418498524791766]
本研究は, 新規なカウンターファクト・インパインティング・アプローチ(COIN)の開発である。 COINは、予測された分類ラベルを生成モデルを用いて異常から正常に反転させる。本手法の有効性は,エストニアのタルツ大学病院から取得したCT画像から,合成標的と実際の腎腫瘍を分離することによって実証される。
論文参考訳（メタデータ） (2024-04-19T12:09:49Z)
Joint chest X-ray diagnosis and clinical visual attention prediction with multi-stage cooperative learning: enhancing interpretability [2.64700310378485]
胸部X線検査における関節疾患診断のための新しい深層学習フレームワークと対応する視力マップの予測について紹介する。具体的には、DenseNet201バックボーンとResidualおよびSqueeze-and-Excitationブロックベースのエンコーダの両方を活用する、新しいデュアルエンコーダマルチタスクUNetを設計した。実験の結果,提案手法は胸部X線診断や視力マップの精度に優れていた。
論文参考訳（メタデータ） (2024-03-25T17:31:12Z)
Eye-gaze Guided Multi-modal Alignment for Medical Representation Learning [65.54680361074882]
アイゲイズガイドマルチモーダルアライメント(EGMA)フレームワークは、アイゲイズデータを利用して、医用視覚的特徴とテキスト的特徴のアライメントを改善する。我々は4つの医療データセット上で画像分類と画像テキスト検索の下流タスクを行う。
論文参考訳（メタデータ） (2024-03-19T03:59:14Z)
MLVICX: Multi-Level Variance-Covariance Exploration for Chest X-ray Self-Supervised Representation Learning [6.4136876268620115]
MLVICXは、胸部X線画像からの埋め込みの形でリッチな表現をキャプチャするアプローチである。自己教師付き胸部X線表現学習におけるMLVICXの性能を示す。
論文参考訳（メタデータ） (2024-03-18T06:19:37Z)
MUSCLE: Multi-task Self-supervised Continual Learning to Pre-train Deep Models for X-ray Images of Multiple Body Parts [63.30352394004674]
MUSCLE(Multi-task Self-super-vised Continual Learning)は、医用画像処理タスクのための、新しい自己教師付き事前学習パイプラインである。 MUSCLEは、複数の身体部分から収集したX線を集約して表現学習を行い、よく設計された連続学習手順を採用する。肺炎分類,骨格異常分類,肺セグメンテーション,結核(TB)検出など,9つの実世界のX線データセットを用いてMUSCLEを評価する。
論文参考訳（メタデータ） (2023-10-03T12:19:19Z)
LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。 55の公開データセットから約13万の医療画像を収集しました。 LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文参考訳（メタデータ） (2023-06-20T22:21:34Z)
Explainable Deep Learning Methods in Medical Image Classification: A Survey [0.0]
最先端のディープラーニングモデルは、異なるタイプの医療データの分類において、人間レベルの精度を達成した。これらのモデルは、主に解釈可能性の欠如のために、臨床ではほとんど採用されていない。ディープラーニングモデルのブラックボックス性は、これらのモデルの意思決定プロセスを説明するための戦略を考案する必要性を高めている。
論文参考訳（メタデータ） (2022-05-10T09:28:14Z)
Many-to-One Distribution Learning and K-Nearest Neighbor Smoothing for Thoracic Disease Identification [83.6017225363714]
ディープラーニングは、病気の識別性能を改善するための最も強力なコンピュータ支援診断技術となった。胸部X線撮影では、大規模データの注釈付けには専門的なドメイン知識が必要で、時間を要する。本論文では、単一モデルにおける疾患同定性能を改善するために、複数対1の分布学習(MODL)とK-nearest neighbor smoothing(KNNS)手法を提案する。
論文参考訳（メタデータ） (2021-02-26T02:29:30Z)
Weakly supervised multiple instance learning histopathological tumor segmentation [51.085268272912415]
スライド画像全体のセグメント化のための弱教師付きフレームワークを提案する。トレーニングモデルに複数のインスタンス学習スキームを利用する。提案するフレームワークは,The Cancer Genome AtlasとPatchCamelyonデータセットのマルチロケーションとマルチ中心公開データに基づいて評価されている。
論文参考訳（メタデータ） (2020-04-10T13:12:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。