論文の概要: Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
- arxiv url: http://arxiv.org/abs/2411.12814v1
- Date: Tue, 19 Nov 2024 19:06:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:12:23.812889
- Title: Interactive Medical Image Segmentation: A Benchmark Dataset and Baseline
- Title(参考訳): インタラクティブな医用画像セグメンテーション:ベンチマークデータセットとベースライン
- Authors: Junlong Cheng, Bin Fu, Jin Ye, Guoan Wang, Tianbin Li, Haoyu Wang, Ruoyu Li, He Yao, Junren Chen, JingWen Li, Yanzhou Su, Min Zhu, Junjun He,
- Abstract要約: IMed-361Mベンチマークデータセットは、一般的なIMIS研究において重要な進歩である。
我々は、複数のデータソースから640万以上の医療画像とその対応する地底真理マスクを収集し、標準化する。
我々は,対話型入力による高品質マスク生成をサポートするIMISベースラインネットワークを開発した。
- 参考スコア(独自算出の注目度): 16.70515066552565
- License:
- Abstract: Interactive Medical Image Segmentation (IMIS) has long been constrained by the limited availability of large-scale, diverse, and densely annotated datasets, which hinders model generalization and consistent evaluation across different models. In this paper, we introduce the IMed-361M benchmark dataset, a significant advancement in general IMIS research. First, we collect and standardize over 6.4 million medical images and their corresponding ground truth masks from multiple data sources. Then, leveraging the strong object recognition capabilities of a vision foundational model, we automatically generated dense interactive masks for each image and ensured their quality through rigorous quality control and granularity management. Unlike previous datasets, which are limited by specific modalities or sparse annotations, IMed-361M spans 14 modalities and 204 segmentation targets, totaling 361 million masks-an average of 56 masks per image. Finally, we developed an IMIS baseline network on this dataset that supports high-quality mask generation through interactive inputs, including clicks, bounding boxes, text prompts, and their combinations. We evaluate its performance on medical image segmentation tasks from multiple perspectives, demonstrating superior accuracy and scalability compared to existing interactive segmentation models. To facilitate research on foundational models in medical computer vision, we release the IMed-361M and model at https://github.com/uni-medical/IMIS-Bench.
- Abstract(参考訳): インタラクティブ・メディカル・イメージ・セグメンテーション(IMIS)は、大規模で多種多様で高密度な注釈付きデータセットの可用性が制限され、モデル一般化と異なるモデル間の一貫した評価を妨げてきた。
本稿では,IMed-361Mベンチマークデータセットについて紹介する。
まず、複数のデータソースから640万以上の医療画像とその対応する地底真理マスクを収集し、標準化する。
そして,視覚基礎モデルの強力な物体認識機能を活用し,各画像の濃密な対話マスクを自動生成し,厳密な品質管理と粒度管理によってその品質を保証した。
特定のモダリティやスパースアノテーションによって制限された以前のデータセットとは異なり、IMed-361Mは14のモダリティと204のセグメンテーションターゲットにまたがり、1画像当たりの平均56マスクである3,3100万マスクである。
最後に、このデータセットに基づいて、クリック、バウンディングボックス、テキストプロンプト、およびそれらの組み合わせを含む対話的な入力によって高品質なマスク生成をサポートするIMISベースラインネットワークを開発した。
複数の視点から医用画像のセグメンテーションタスクの性能を評価し、既存のインタラクティブセグメンテーションモデルと比較して精度とスケーラビリティを向上する。
医療コンピュータビジョンの基礎モデルの研究を容易にするため,IMed-361M とモデル https://github.com/uni-medical/IMIS-Bench で発表する。
関連論文リスト
- MedTrinity-25M: A Large-scale Multimodal Dataset with Multigranular Annotations for Medicine [53.01393667775077]
本稿では,医療用大規模マルチモーダルデータセットであるMedTrinity-25Mを紹介する。
10のモダリティで2500万枚以上の画像をカバーしており、65以上の疾患に対する多彩なアノテーションがある。
画像テキストペアの可用性によって制限された既存のアプローチとは異なり、私たちは最初の自動パイプラインを開発しました。
論文 参考訳(メタデータ) (2024-08-06T02:09:35Z) - Discriminative Hamiltonian Variational Autoencoder for Accurate Tumor Segmentation in Data-Scarce Regimes [2.8498944632323755]
医用画像分割のためのエンドツーエンドハイブリッドアーキテクチャを提案する。
ハミルトン変分オートエンコーダ(HVAE)と識別正則化を用いて生成画像の品質を向上する。
我々のアーキテクチャはスライス・バイ・スライス・ベースで3Dボリュームを分割し、リッチな拡張データセットをカプセル化する。
論文 参考訳(メタデータ) (2024-06-17T15:42:08Z) - RadGenome-Chest CT: A Grounded Vision-Language Dataset for Chest CT Analysis [56.57177181778517]
RadGenome-Chest CTはCT-RATEに基づく大規模3次元胸部CT解釈データセットである。
私たちは、最新の強力なユニバーサルセグメンテーションと大きな言語モデルを活用して、元のデータセットを拡張します。
論文 参考訳(メタデータ) (2024-04-25T17:11:37Z) - QUBIQ: Uncertainty Quantification for Biomedical Image Segmentation Challenge [93.61262892578067]
医用画像分割作業の不確実性、特にラター間変動性は重要な課題である。
この可変性は、自動セグメンテーションアルゴリズムの開発と評価に直接影響を及ぼす。
バイオメディカル画像量化チャレンジ(QUBIQ)における不確実性の定量化のベンチマーク結果を報告する。
論文 参考訳(メタデータ) (2024-03-19T17:57:24Z) - C^2M-DoT: Cross-modal consistent multi-view medical report generation
with domain transfer network [67.97926983664676]
ドメイン転送ネットワーク(C2M-DoT)を用いたクロスモーダルなマルチビュー医療レポート生成を提案する。
C2M-DoTは、すべてのメトリクスで最先端のベースラインを大幅に上回る。
論文 参考訳(メタデータ) (2023-10-09T02:31:36Z) - Self-Prompting Large Vision Models for Few-Shot Medical Image
Segmentation [14.135249795318591]
本稿では,医療ビジョン応用における自己プロンプトの新たな視点を提案する。
我々は、Segment Anything Modelの埋め込み空間を利用して、単純だが効果的な線形ピクセルワイド分類器を通して自身を誘導する。
複数のデータセットで競合する結果を得る。
論文 参考訳(メタデータ) (2023-08-15T08:20:07Z) - Building RadiologyNET: Unsupervised annotation of a large-scale
multimodal medical database [0.4915744683251151]
医学的診断と治療における機械学習の使用は、近年顕著な成長をみせている。
しかし、アノテーションのプロセスは時間がかかり、コストがかかるため、大きな注釈付き画像データセットが利用できることは大きな障害である。
本稿では, 医用放射線画像のデータベースに意味的類似性について, 自動的に注釈付けを行う方法について検討する。
論文 参考訳(メタデータ) (2023-07-27T13:00:33Z) - LVM-Med: Learning Large-Scale Self-Supervised Vision Models for Medical
Imaging via Second-order Graph Matching [59.01894976615714]
LVM-Medは、大規模医療データセットに基づいてトレーニングされた、最初のディープネットワークファミリーである。
55の公開データセットから約13万の医療画像を収集しました。
LVM-Medは、多くの最先端の教師付き、自己監督型、基礎モデルよりも経験的に優れている。
論文 参考訳(メタデータ) (2023-06-20T22:21:34Z) - AMIGO: Sparse Multi-Modal Graph Transformer with Shared-Context
Processing for Representation Learning of Giga-pixel Images [53.29794593104923]
本稿では,スライド病理像全体に対する共有コンテキスト処理の新たな概念を提案する。
AMIGOは、組織内のセルラーグラフを使用して、患者に単一の表現を提供する。
我々のモデルは、データの20%以下で同じ性能を達成できる程度に、欠落した情報に対して強い堅牢性を示す。
論文 参考訳(メタデータ) (2023-03-01T23:37:45Z) - UNetFormer: A Unified Vision Transformer Model and Pre-Training
Framework for 3D Medical Image Segmentation [14.873473285148853]
UNetFormerと呼ばれる2つのアーキテクチャで構成され,3D Swin TransformerベースのエンコーダとConal Neural Network(CNN)とTransformerベースのデコーダを備えている。
提案モデルでは, 5つの異なる解像度でのスキップ接続により, エンコーダをデコーダにリンクする。
本稿では,ランダムにマスクされたトークンを予測する学習を通じて,エンコーダバックボーンの自己教師付き事前学習手法を提案する。
論文 参考訳(メタデータ) (2022-04-01T17:38:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。