論文の概要: ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset
- arxiv url: http://arxiv.org/abs/2405.10004v1
- Date: Thu, 16 May 2024 11:44:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-17 14:31:57.680842
- Title: ROCOv2: Radiology Objects in COntext Version 2, an Updated Multimodal Image Dataset
- Title(参考訳): ROCOv2: マルチモーダル画像データセットを更新したContextバージョン2のRadiology Objects
- Authors: Johannes Rückert, Louise Bloch, Raphael Brüngel, Ahmad Idrissi-Yaghir, Henning Schäfer, Cynthia S. Schmidt, Sven Koitka, Obioma Pelka, Asma Ben Abacha, Alba G. Seco de Herrera, Henning Müller, Peter A. Horn, Felix Nensa, Christoph M. Friedrich,
- Abstract要約: 本稿では,放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2 (ROCOv2)について紹介する。
2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。
このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。
- 参考スコア(独自算出の注目度): 4.382166835379353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated medical image analysis systems often require large amounts of training data with high quality labels, which are difficult and time consuming to generate. This paper introduces Radiology Object in COntext version 2 (ROCOv2), a multimodal dataset consisting of radiological images and associated medical concepts and captions extracted from the PMC Open Access subset. It is an updated version of the ROCO dataset published in 2018, and adds 35,705 new images added to PMC since 2018. It further provides manually curated concepts for imaging modalities with additional anatomical and directional concepts for X-rays. The dataset consists of 79,789 images and has been used, with minor modifications, in the concept detection and caption prediction tasks of ImageCLEFmedical Caption 2023. The dataset is suitable for training image annotation models based on image-caption pairs, or for multi-label image classification using Unified Medical Language System (UMLS) concepts provided with each image. In addition, it can serve for pre-training of medical domain models, and evaluation of deep learning models for multi-task learning.
- Abstract(参考訳): 自動医用画像解析システムは、高品質なラベルを持つ大量のトレーニングデータを必要とすることが多い。
本稿では,PMC Open Accessサブセットから抽出した放射線画像と関連する医療概念とキャプションからなるマルチモーダルデータセットである,COntext version 2(ROCOv2)について紹介する。
2018年に公開されたROCOデータセットの更新版であり、2018年以来、PMCに35,705の新しいイメージが追加されている。
さらに、X線のための解剖学的および方向的概念を追加して、画像モダリティを手動でキュレートした概念を提供する。
このデータセットは79,789枚の画像で構成され、ImageCLEFmedical Caption 2023のコンセプト検出とキャプション予測タスクにおいて、小さな修正が加えられている。
このデータセットは、画像キャプチャペアに基づいた画像アノテーションモデルのトレーニングや、画像毎に提供されるUnified Medical Language System (UMLS) の概念を用いたマルチラベル画像分類に適している。
さらに、医療ドメインモデルの事前トレーニングや、マルチタスク学習のためのディープラーニングモデルの評価に役立てることができる。
関連論文リスト
- Unlocking the Power of Spatial and Temporal Information in Medical Multimodal Pre-training [99.2891802841936]
我々は,空間的・時間的微粒なモデリングのためのMed-STフレームワークを提案する。
空間モデリングでは、Med-STはMixture of View Expert (MoVE)アーキテクチャを使用して、正面と横の両方のビューから異なる視覚的特徴を統合する。
時間的モデリングのために,フォワードマッピング分類 (FMC) とリバースマッピング回帰 (RMR) による新たな双方向サイクル整合性目標を提案する。
論文 参考訳(メタデータ) (2024-05-30T03:15:09Z) - Medical Vision-Language Pre-Training for Brain Abnormalities [96.1408455065347]
本稿では,PubMedなどの公共リソースから,医用画像・テキスト・アライメントデータを自動的に収集する方法を示す。
特に,まず大きな脳画像テキストデータセットを収集することにより,事前学習プロセスの合理化を図るパイプラインを提案する。
また,医療領域におけるサブフィギュアをサブキャプションにマッピングするというユニークな課題についても検討した。
論文 参考訳(メタデータ) (2024-04-27T05:03:42Z) - Freeze the backbones: A Parameter-Efficient Contrastive Approach to
Robust Medical Vision-Language Pre-training [15.790435273150083]
本稿では,事前に訓練した画像やテキストエンコーダの医療知識を凍結保存して保存するバックボーン非依存型適応フレームワークを提案する。
当社のフレームワークは,既存の事前トレーニングアプローチと比較して,トレーニング可能なパラメータを90%以上削減しながら,競争力のあるパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-01-02T12:14:41Z) - Enhancing CT Image synthesis from multi-modal MRI data based on a
multi-task neural network framework [16.864720020158906]
拡張型Transformer U-Netアーキテクチャに基づく多目的マルチタスクニューラルネットワークフレームワークを提案する。
我々はCT画像を個別のサブタスクに分解する従来の問題を分解する。
マルチモーダルデータを扱う際のフレームワークの汎用性を高めるため,複数の画像チャネルでモデルを拡張した。
論文 参考訳(メタデータ) (2023-12-13T18:22:38Z) - Sam-Guided Enhanced Fine-Grained Encoding with Mixed Semantic Learning
for Medical Image Captioning [12.10183458424711]
本稿では, セグメンション・アプライス・モデル (SAM) でガイドされた新しい医用画像キャプション法について述べる。
本手法では, 医用画像の総合的情報と細部を同時に捉えるために, セマンティック学習を併用した独特な事前学習戦略を採用している。
論文 参考訳(メタデータ) (2023-11-02T05:44:13Z) - CXR-CLIP: Toward Large Scale Chest X-ray Language-Image Pre-training [6.292642131180376]
本稿では,胸部X線における画像テキストデータの欠如に対処し,画像テキストペアを一般プロンプトを介して画像テキストペアとして拡張する。
また,医学画像とレポートの学習レベルの特徴を学習するために,ICLとTCLという2つの対照的な損失を設計した。
我々のモデルは、同じ条件下で訓練された最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-10-20T05:44:55Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。