論文の概要: BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval
- arxiv url: http://arxiv.org/abs/2403.15992v1
- Date: Sun, 24 Mar 2024 03:10:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-26 20:12:47.736648
- Title: BIMCV-R: A Landmark Dataset for 3D CT Text-Image Retrieval
- Title(参考訳): BIMCV-R:3次元CTテキスト検索のためのランドマークデータセット
- Authors: Yinda Chen, Che Liu, Xiaoyu Liu, Rossella Arcucci, Zhiwei Xiong,
- Abstract要約: 我々は,200万枚以上のスライスを含む8,069個の3次元CTボリュームのデータセットを,それぞれの放射線学的報告と組み合わせて提示する。
次に、デュアルストリームネットワークアーキテクチャを用いた検索戦略であるMedFinderを構築します。
これは、テキスト・トゥ・イメージ、画像・トゥ・テキスト、キーワードベースの検索タスクを容易に行えるシステムを開発するための予備的なステップである。
- 参考スコア(独自算出の注目度): 44.92177279141073
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The burgeoning integration of 3D medical imaging into healthcare has led to a substantial increase in the workload of medical professionals. To assist clinicians in their diagnostic processes and alleviate their workload, the development of a robust system for retrieving similar case studies presents a viable solution. While the concept holds great promise, the field of 3D medical text-image retrieval is currently limited by the absence of robust evaluation benchmarks and curated datasets. To remedy this, our study presents a groundbreaking dataset, BIMCV-R (This dataset will be released upon acceptance.), which includes an extensive collection of 8,069 3D CT volumes, encompassing over 2 million slices, paired with their respective radiological reports. Expanding upon the foundational work of our dataset, we craft a retrieval strategy, MedFinder. This approach employs a dual-stream network architecture, harnessing the potential of large language models to advance the field of medical image retrieval beyond existing text-image retrieval solutions. It marks our preliminary step towards developing a system capable of facilitating text-to-image, image-to-text, and keyword-based retrieval tasks.
- Abstract(参考訳): 医療分野への3D医療画像の統合は、医療専門家の労働負荷を大幅に増加させた。
臨床医が診断過程を補助し、作業負荷を軽減するために、同様のケーススタディを検索する堅牢なシステムの開発が実現可能なソリューションである。
この概念は大きな可能性を秘めているが、現在、3D医療用テキスト画像検索の分野は、堅牢な評価ベンチマークとキュレートされたデータセットの欠如によって制限されている。
そこで本研究では,BIMCV-R(BIMCV-R)という,200万回以上のスライスを含む8,069個の3DCTボリュームの広範囲なコレクションを,それぞれの放射線学的レポートと組み合わせた,画期的なデータセットを提案する。
データセットの基礎的な作業を拡張することで、検索戦略であるMedFinderを構築します。
このアプローチでは、デュアルストリームネットワークアーキテクチャを採用し、大規模言語モデルの可能性を活用して、既存のテキスト画像検索ソリューションを超えて医療画像検索の分野を前進させる。
これは、テキスト・トゥ・イメージ、画像・トゥ・テキスト、キーワードベースの検索タスクを容易に行えるシステムを開発するための予備的なステップである。
関連論文リスト
- Content-Based Image Retrieval for Multi-Class Volumetric Radiology Images: A Benchmark Study [0.6249768559720122]
非医用画像上の事前訓練された教師なしモデルからの埋め込みに対して、医用画像上の事前訓練された教師なしモデルからの埋め込みをベンチマークした。
ボリューム画像の検索には,テキストマッチングにインスパイアされた遅延インタラクションのランク付け手法を採用する。
論文 参考訳(メタデータ) (2024-05-15T13:34:07Z) - M3D: Advancing 3D Medical Image Analysis with Multi-Modal Large Language Models [49.5030774873328]
これまでの研究は主に2Dの医療画像に焦点を合わせてきた。
120K画像テキスト対と62K命令応答対からなる大規模3次元マルチモーダル医療データセットM3D-Dataを提案する。
また,新しい3次元マルチモーダル・メディカル・ベンチマークであるM3D-Benchを導入し,8つのタスクにまたがる自動評価を容易にする。
論文 参考訳(メタデータ) (2024-03-31T06:55:12Z) - 3D-MIR: A Benchmark and Empirical Study on 3D Medical Image Retrieval in
Radiology [6.851500027718433]
3D画像検索の分野はまだ発展途上であり、確立された評価ベンチマーク、包括的なデータセット、徹底的な研究が欠如している。
本稿では,3次元医用画像検索のための新しいベンチマーク(3D-MIR)を提案する。
このベンチマークを用いて,一般的なマルチモーダル基礎モデルの2次元スライス,3次元ボリューム,マルチモーダル埋め込みをクエリとして利用する,多様な検索戦略を探索する。
論文 参考訳(メタデータ) (2023-11-23T00:57:35Z) - Medical Image Retrieval Using Pretrained Embeddings [0.6827423171182154]
トレーニングや微調整の必要なく,事前訓練ネットワークを用いて医用画像検索を行うことが可能であることを示す。
プレトレーニングを施した埋込装置を用いて, 運動量, 身体領域, 臓器レベルでの様々なタスクに対する1のリコールを達成した。
論文 参考訳(メタデータ) (2023-11-22T17:42:33Z) - Three-dimensional Bone Image Synthesis with Generative Adversarial
Networks [2.499907423888049]
本研究は,高分解能医用量を生成するために,3次元生成対向ネットワーク(GAN)を効率的に訓練できることを実証する。
GANインバージョンは3次元設定のために実装され、モデル解釈可能性に関する広範な研究に使用される。
論文 参考訳(メタデータ) (2023-10-26T08:08:17Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - XrayGPT: Chest Radiographs Summarization using Medical Vision-Language
Models [60.437091462613544]
我々は,会話型医療ビジョン言語モデルであるXrayGPTを紹介する。
胸部X線写真に関するオープンエンドの質問を分析し、答えることができる。
自由テキストラジオグラフィーレポートから217kの対話的かつ高品質な要約を生成する。
論文 参考訳(メタデータ) (2023-06-13T17:59:59Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - RAMM: Retrieval-augmented Biomedical Visual Question Answering with
Multi-modal Pre-training [45.38823400370285]
ヴィジュアル・アンド・ランゲージ・マルチモーダル事前学習と微調整は視覚的質問応答(VQA)において大きな成功を収めた。
本稿では, バイオメディカルVQAのためのRAMMという, 事前学習とファイントゥン検索のパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-01T14:21:19Z) - Fed-Sim: Federated Simulation for Medical Imaging [131.56325440976207]
本稿では、2つの学習可能なニューラルモジュールからなる物理駆動型生成手法を提案する。
データ合成フレームワークは、複数のデータセットの下流セグメンテーション性能を改善する。
論文 参考訳(メタデータ) (2020-09-01T19:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。