論文の概要: Anatomical grounding pre-training for medical phrase grounding
- arxiv url: http://arxiv.org/abs/2502.16585v1
- Date: Sun, 23 Feb 2025 14:24:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:54:15.588924
- Title: Anatomical grounding pre-training for medical phrase grounding
- Title(参考訳): 医療用句接地のための解剖学的接地前訓練
- Authors: Wenjun Zhang, Shakes Chandra, Aaron Nicolson,
- Abstract要約: メディカルファース・グラウンドディング(MPG)は、医療報告に記載された放射線学的所見を医療画像の特定の領域にマッピングする。
医用画像における解剖学的用語を対応する領域と整合させるドメイン内事前訓練タスクとして解剖学的接地を提案する。
- 参考スコア(独自算出の注目度): 9.723022875313024
- License:
- Abstract: Medical Phrase Grounding (MPG) maps radiological findings described in medical reports to specific regions in medical images. The primary obstacle hindering progress in MPG is the scarcity of annotated data available for training and validation. We propose anatomical grounding as an in-domain pre-training task that aligns anatomical terms with corresponding regions in medical images, leveraging large-scale datasets such as Chest ImaGenome. Our empirical evaluation on MS-CXR demonstrates that anatomical grounding pre-training significantly improves performance in both a zero-shot learning and fine-tuning setting, outperforming state-of-the-art MPG models. Our fine-tuned model achieved state-of-the-art performance on MS-CXR with an mIoU of 61.2, demonstrating the effectiveness of anatomical grounding pre-training for MPG.
- Abstract(参考訳): メディカルファース・グラウンドディング(MPG)は、医療報告に記載された放射線学的所見を医療画像の特定の領域にマッピングする。
MPGの進歩を妨げる主な障害は、トレーニングと検証に利用可能な注釈付きデータの不足である。
そこで我々は,Chest ImaGenomeなどの大規模データセットを利用して,解剖学的用語を医療画像の対応する領域と整合させる,ドメイン内事前学習タスクとして解剖学的基盤を提案する。
我々は,MS-CXRにおける実験的な評価により,ゼロショット学習と微調整の両方において,解剖学的基礎学習が有意に向上し,最先端MPGモデルよりも優れることを示した。
mIoUが61.2でMS-CXRの最先端性能を達成し,MPGの解剖学的接地前訓練の有効性を実証した。
関連論文リスト
- Effective Segmentation of Post-Treatment Gliomas Using Simple Approaches: Artificial Sequence Generation and Ensemble Models [7.352034931666381]
本稿では,深層学習手法のセグメンテーション性能を高めるための2つの手法を提案する。
まず、利用可能なMRIシーケンスの単純な線形結合に基づく追加入力を組み込む。
第二に、モデルのバッテリの寄与を測るために様々なアンサンブル手法を用いる。
論文 参考訳(メタデータ) (2024-09-12T15:34:31Z) - Potential of Multimodal Large Language Models for Data Mining of Medical Images and Free-text Reports [51.45762396192655]
特にGemini-Vision-Series (Gemini) と GPT-4-Series (GPT-4) は、コンピュータビジョンのための人工知能のパラダイムシフトを象徴している。
本研究は,14の医用画像データセットを対象に,Gemini,GPT-4,および4つの一般的な大規模モデルの性能評価を行った。
論文 参考訳(メタデータ) (2024-07-08T09:08:42Z) - Grounded Knowledge-Enhanced Medical Vision-Language Pre-training for Chest X-Ray [12.239249676716247]
医用視覚言語プレトレーニングは、医用画像とテキストのドメイン汎用表現を学習するための有望なアプローチとして現れてきた。
胸部X線に対する知識強化型医療ビジョン言語事前学習フレームワークを提案する。
以上の結果から,胸部X線像とX線像との整合性を改善するために接地機構を組み込むことの利点が示唆された。
論文 参考訳(メタデータ) (2024-04-23T05:16:24Z) - Towards a clinically accessible radiology foundation model: open-access and lightweight, with automated evaluation [113.5002649181103]
オープンソースの小型マルチモーダルモデル(SMM)を訓練し、放射線学における未測定臨床ニーズに対する能力ギャップを埋める。
トレーニングのために,697万以上の画像テキストペアからなる大規模なデータセットを組み立てる。
評価のために,GPT-4に基づく実測値CheXpromptを提案する。
LlaVA-Radの推論は高速で、単一のV100 GPU上でプライベート設定で実行できる。
論文 参考訳(メタデータ) (2024-03-12T18:12:02Z) - Scaling Representation Learning from Ubiquitous ECG with State-Space
Models [28.776392386988043]
我々は、ECG信号からの表現学習のための事前訓練された状態空間モデルであるtextbfWildECGを紹介する。
我々は,275,000個のECG記録を野生で収集し,下流のタスクで評価することで,このモデルを自己指導的に訓練する。
論文 参考訳(メタデータ) (2023-09-26T22:08:19Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Customizing General-Purpose Foundation Models for Medical Report
Generation [64.31265734687182]
ラベル付き医用画像-レポートペアの不足は、ディープニューラルネットワークや大規模ニューラルネットワークの開発において大きな課題となっている。
本稿では,コンピュータビジョンと自然言語処理の基盤モデル (FM) として,市販の汎用大規模事前学習モデルのカスタマイズを提案する。
論文 参考訳(メタデータ) (2023-06-09T03:02:36Z) - Medical Phrase Grounding with Region-Phrase Context Contrastive
Alignment [35.56193044201645]
医療用語の接頭辞は、特定の医学的発見を記述したフレーズクエリーを考慮し、医療画像の最も関連性の高い領域を特定することを目的としている。
本稿では,MPGのエンドツーエンドアプローチであるMedRPGを提案する。
MedRPGにより、より優れた地域フレーズ対応によるニュアンスド医療所見の発見を可能にするため、さらにTri-attention Context contrastive alignment (TaCo)を提案する。
論文 参考訳(メタデータ) (2023-03-14T03:57:16Z) - Medical Image Captioning via Generative Pretrained Transformers [57.308920993032274]
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案モデルは、Open-I、MIMIC-CXR、汎用MS-COCOの2つの医療データセットで検証される。
論文 参考訳(メタデータ) (2022-09-28T10:27:10Z) - CoRSAI: A System for Robust Interpretation of CT Scans of COVID-19
Patients Using Deep Learning [133.87426554801252]
我々は,深部畳み込み神経網のアンサンブルを用いた肺CTスキャンのセグメンテーションによるアプローチを採用した。
本モデルを用いて, 病変の分類, 患者の動態の評価, 病変による肺の相対体積の推定, 肺の損傷ステージの評価が可能となった。
論文 参考訳(メタデータ) (2021-05-25T12:06:55Z) - Attention-Guided Generative Adversarial Network to Address Atypical
Anatomy in Modality Transfer [3.167912607974845]
T1強調MRI画像から正確な合成CTを生成するために,空間的注意誘導型生成対向ネットワーク(attention-GAN)モデルを提案する。
15人の脳がん患者の実験結果によると、GANは既存のsynCTモデルより優れており、平均値は85.22$pm$12.08、232.41$pm$60.86、246.38$pm$42.67である。
論文 参考訳(メタデータ) (2020-06-27T02:50:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。