論文の概要: PRISM: A Promptable and Robust Interactive Segmentation Model with Visual Prompts
- arxiv url: http://arxiv.org/abs/2404.15028v1
- Date: Tue, 23 Apr 2024 13:34:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 13:51:55.434500
- Title: PRISM: A Promptable and Robust Interactive Segmentation Model with Visual Prompts
- Title(参考訳): PRISM: プロンプトとロバストな対話型セグメンテーションモデル
- Authors: Hao Li, Han Liu, Dewei Hu, Jiacheng Wang, Ipek Oguz,
- Abstract要約: PRISMは3D画像の正確なセグメンテーションを目的とした、Promptable and Robust Interactive Modelである。
PRISMは、ポイント、ボックス、スクリブルなどの様々な視覚的入力をスパースプロンプトとして受け入れ、マスクは密接なプロンプトとして受け入れる。
PRISMの総合的検証は、大腸、膵、肝臓、腎臓の腫瘍分節に関する4つの公開データセットを用いて行われる。
- 参考スコア(独自算出の注目度): 12.194439938007672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present PRISM, a Promptable and Robust Interactive Segmentation Model, aiming for precise segmentation of 3D medical images. PRISM accepts various visual inputs, including points, boxes, and scribbles as sparse prompts, as well as masks as dense prompts. Specifically, PRISM is designed with four principles to achieve robustness: (1) Iterative learning. The model produces segmentations by using visual prompts from previous iterations to achieve progressive improvement. (2) Confidence learning. PRISM employs multiple segmentation heads per input image, each generating a continuous map and a confidence score to optimize predictions. (3) Corrective learning. Following each segmentation iteration, PRISM employs a shallow corrective refinement network to reassign mislabeled voxels. (4) Hybrid design. PRISM integrates hybrid encoders to better capture both the local and global information. Comprehensive validation of PRISM is conducted using four public datasets for tumor segmentation in the colon, pancreas, liver, and kidney, highlighting challenges caused by anatomical variations and ambiguous boundaries in accurate tumor identification. Compared to state-of-the-art methods, both with and without prompt engineering, PRISM significantly improves performance, achieving results that are close to human levels. The code is publicly available at https://github.com/MedICL-VU/PRISM.
- Abstract(参考訳): 本稿では,PRISM, Promptable and Robust Interactive Segmentation Modelを提案する。
PRISMは、ポイント、ボックス、スクリブルなどの様々な視覚的入力をスパースプロンプトとして受け入れ、マスクは密接なプロンプトとして受け入れる。
具体的には、PRISMは、(1)反復学習という、堅牢性を達成するための4つの原則で設計されている。
モデルは、進歩的な改善を達成するために、以前のイテレーションからの視覚的プロンプトを使用してセグメンテーションを生成する。
2)信頼学習。
PRISMは入力画像ごとに複数のセグメンテーションヘッドを使用し、それぞれが連続マップと信頼スコアを生成して予測を最適化する。
(3)矯正学習
各セグメンテーションイテレーションの後、PRISMは浅い修正改良ネットワークを使用して、ラベルのずれたボクセルを再割り当てする。
(4)ハイブリッドデザイン。
PRISMはハイブリッドエンコーダを統合し、ローカル情報とグローバル情報の両方をよりよくキャプチャする。
PRISMの包括的検証は、大腸、膵、肝臓、腎臓の腫瘍区分に関する4つの公開データセットを用いて行われ、正確な腫瘍同定における解剖学的変異と曖昧な境界に起因する課題を強調している。
PRISMは、最先端の手法と比較して、迅速なエンジニアリングと非迅速なエンジニアリングの両方で、性能を著しく改善し、人間のレベルに近い結果を得る。
コードはhttps://github.com/MedICL-VU/PRISMで公開されている。
関連論文リスト
- Leveraging Labelled Data Knowledge: A Cooperative Rectification Learning Network for Semi-supervised 3D Medical Image Segmentation [27.94353306813293]
半教師付き3次元医用画像セグメンテーションは,少ないラベル付きデータと多数の非ラベル付きデータを用いて正確なセグメンテーションを実現することを目的としている。
半教師付き学習法の設計における主な課題は、学習に未学習データを効果的に活用することである。
一貫性学習戦略のための高品質な擬似ラベルを作成するための新しい手法を提案する。
論文 参考訳(メタデータ) (2025-02-17T05:29:50Z) - S^2Former-OR: Single-Stage Bi-Modal Transformer for Scene Graph Generation in OR [50.435592120607815]
外科手術のシーングラフ生成(SGG)は、手術室(OR)におけるホモロジー認知知能の増強に不可欠である
これまでの研究は主に多段階学習に依存しており、生成したセマンティックシーングラフはポーズ推定とオブジェクト検出を伴う中間プロセスに依存している。
本研究では,S2Former-OR(S2Former-OR)と呼ばれるORにおけるSGGのための新しいシングルステージバイモーダルトランスフォーマフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-22T11:40:49Z) - Promise:Prompt-driven 3D Medical Image Segmentation Using Pretrained
Image Foundation Models [13.08275555017179]
単点プロンプトのみを用いたプロンプト駆動型3次元医用画像分割モデルProMISeを提案する。
今回,大腸癌と膵腫瘍の2つの領域に分布する2つのパブリックデータセットについて検討した。
論文 参考訳(メタデータ) (2023-10-30T16:49:03Z) - SwIPE: Efficient and Robust Medical Image Segmentation with Implicit Patch Embeddings [12.79344668998054]
正確な局所境界線とグローバルな形状コヒーレンスを実現するために,SwIPE(Segmentation with Implicit Patch Embeddings)を提案する。
その結果,最近の暗黙的アプローチよりもSwIPEは大幅に改善され,パラメータが10倍以上の最先端の離散手法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-23T20:55:11Z) - MOCA: Self-supervised Representation Learning by Predicting Masked Online Codebook Assignments [72.6405488990753]
自己教師付き学習は、ビジョントランスフォーマーネットワークの欲求を軽減できる。
所望のプロパティを統一する単段および単段のMOCAを提案する。
我々は,様々な評価プロトコルにおいて,低照度設定と強力な実験結果に対して,最先端の新たな結果を得る。
論文 参考訳(メタデータ) (2023-07-18T15:46:20Z) - Extraction of volumetric indices from echocardiography: which deep
learning solution for clinical use? [6.144041824426555]
提案した3D nnU-Netは,2D法と繰り返しセグメンテーション法よりも優れていることを示す。
実験の結果、十分なトレーニングデータがあれば、3D nnU-Netは日常的な臨床機器の基準を満たす最初の自動化ツールとなる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-03T09:38:52Z) - Compete to Win: Enhancing Pseudo Labels for Barely-supervised Medical
Image Segmentation [29.218542984289932]
擬似ラベル品質を向上させるための新しいCompete-to-Win法(ComWin)を提案する。
実験により,本手法は3つの医用画像データセット上で最高の性能が得られることが示された。
論文 参考訳(メタデータ) (2023-04-15T10:04:14Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Stacked Hybrid-Attention and Group Collaborative Learning for Unbiased
Scene Graph Generation [62.96628432641806]
Scene Graph Generationは、まず与えられた画像内の視覚的コンテンツをエンコードし、次にそれらをコンパクトな要約グラフに解析することを目的としている。
まず,モーダル内改良とモーダル間相互作用を容易にする新しいスタック型ハイブリッド・アテンションネットワークを提案する。
次に、デコーダを最適化するための革新的なグループ協調学習戦略を考案する。
論文 参考訳(メタデータ) (2022-03-18T09:14:13Z) - Learning What Not to Segment: A New Perspective on Few-Shot Segmentation [63.910211095033596]
近年では、FSS ( few-shot segmentation) が広く開発されている。
本稿では,問題を緩和するための新鮮で直接的な知見を提案する。
提案されたアプローチのユニークな性質を踏まえて、より現実的で挑戦的な設定にまで拡張する。
論文 参考訳(メタデータ) (2022-03-15T03:08:27Z) - Semantic Segmentation with Generative Models: Semi-Supervised Learning
and Strong Out-of-Domain Generalization [112.68171734288237]
本論文では,画像とラベルの再生モデルを用いた識別画素レベルのタスクのための新しいフレームワークを提案する。
我々は,共同画像ラベルの分布を捕捉し,未ラベル画像の大規模な集合を用いて効率的に訓練する生成的対向ネットワークを学習する。
ドメイン内性能をいくつかのベースラインと比較し,ドメイン外一般化を極端に示す最初の例である。
論文 参考訳(メタデータ) (2021-04-12T21:41:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。