論文の概要: SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation
- arxiv url: http://arxiv.org/abs/2501.09008v1
- Date: Wed, 15 Jan 2025 18:48:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 15:52:16.397320
- Title: SimGen: A Diffusion-Based Framework for Simultaneous Surgical Image and Segmentation Mask Generation
- Title(参考訳): SimGen: 同時手術画像とセグメンテーションマスク生成のための拡散ベースのフレームワーク
- Authors: Aditya Bhat, Rupak Bose, Chinedu Innocent Nwoye, Nicolas Padoy,
- Abstract要約: テキスト・トゥ・イメージのような生成AIモデルは、セグメンテーションマスクのような空間アノテーションを取り入れることで、データの不足を軽減することができる。
本研究は,同時画像とマスク生成のための新しいタスクと手法であるSimGenを紹介する。
SimGenはDDPMフレームワークとResidual U-Netに基づく拡散モデルであり、高忠実度手術画像とそれに対応するセグメンテーションマスクを共同で生成するように設計されている。
- 参考スコア(独自算出の注目度): 1.9393128408121891
- License:
- Abstract: Acquiring and annotating surgical data is often resource-intensive, ethical constraining, and requiring significant expert involvement. While generative AI models like text-to-image can alleviate data scarcity, incorporating spatial annotations, such as segmentation masks, is crucial for precision-driven surgical applications, simulation, and education. This study introduces both a novel task and method, SimGen, for Simultaneous Image and Mask Generation. SimGen is a diffusion model based on the DDPM framework and Residual U-Net, designed to jointly generate high-fidelity surgical images and their corresponding segmentation masks. The model leverages cross-correlation priors to capture dependencies between continuous image and discrete mask distributions. Additionally, a Canonical Fibonacci Lattice (CFL) is employed to enhance class separability and uniformity in the RGB space of the masks. SimGen delivers high-fidelity images and accurate segmentation masks, outperforming baselines across six public datasets assessed on image and semantic inception distance metrics. Ablation study shows that the CFL improves mask quality and spatial separation. Downstream experiments suggest generated image-mask pairs are usable if regulations limit human data release for research. This work offers a cost-effective solution for generating paired surgical images and complex labels, advancing surgical AI development by reducing the need for expensive manual annotations.
- Abstract(参考訳): 外科的データの取得と注釈付けは、しばしば資源集約的で倫理的な制約であり、重要な専門家の関与を必要とする。
テキスト・トゥ・イメージのような生成AIモデルはデータの不足を軽減することができるが、セグメンテーションマスクのような空間アノテーションを取り入れることは、精密に駆動された外科的応用、シミュレーション、教育に不可欠である。
本研究は,同時画像とマスク生成のための新しいタスクと手法であるSimGenを紹介する。
SimGenはDDPMフレームワークとResidual U-Netに基づく拡散モデルであり、高忠実度手術画像とそれに対応するセグメンテーションマスクを共同で生成するように設計されている。
このモデルは、連続した画像と離散的なマスク分布の間の依存関係をキャプチャするために、相互相関の先行値を利用する。
さらに、CFL(Canonical Fibonacci Lattice)は、マスクのRGB空間におけるクラス分離性と均一性を高めるために用いられる。
SimGenは高忠実なイメージと正確なセグメンテーションマスクを提供し、画像とセマンティックインセプション距離のメトリクスに基づいて評価された6つのパブリックデータセットでベースラインを上回っている。
アブレーション研究では、CFLはマスクの品質と空間分離を改善している。
下流の実験では、人間のデータ公開を規制が制限すれば、生成されたイメージマスクペアが利用可能であることが示唆されている。
この研究は、ペア化された外科画像と複雑なラベルを生成するためのコスト効率のよいソリューションを提供し、高価な手動アノテーションの必要性を減らし、外科用AIの開発を進める。
関連論文リスト
- Mask Factory: Towards High-quality Synthetic Data Generation for Dichotomous Image Segmentation [70.95380821618711]
Dichotomous Image (DIS) タスクは高度に正確なアノテーションを必要とする。
現在の生成モデルとテクニックは、シーンのずれ、ノイズによるエラー、限られたトレーニングサンプルの変動といった問題に苦慮している。
多様な正確なデータセットを生成するためのスケーラブルなソリューションを提供する。
論文 参考訳(メタデータ) (2024-12-26T06:37:25Z) - Image Synthesis with Class-Aware Semantic Diffusion Models for Surgical Scene Segmentation [3.6723640056915436]
本稿では,データ不足と不均衡に対処するクラスアウェア意味拡散モデル(CASDM)を提案する。
クラス認識平均二乗誤差とクラス認識自己認識損失関数は、重要で目立たないクラスを優先するように定義されている。
我々は、テキストプロンプトを用いて、その内容を特定するために、初めて、新しい方法でマルチクラスセグメンテーションマップを生成する。
論文 参考訳(メタデータ) (2024-10-31T14:14:30Z) - Comprehensive Generative Replay for Task-Incremental Segmentation with Concurrent Appearance and Semantic Forgetting [49.87694319431288]
一般的なセグメンテーションモデルは、異なる画像ソースからの様々なオブジェクトを含む様々なタスクに対して、ますます好まれている。
画像とマスクのペアを合成することで外観と意味の知識を復元する包括的生成(CGR)フレームワークを提案する。
漸進的タスク(心身、基礎、前立腺のセグメンテーション)の実験は、同時出現と意味的忘れを緩和する上で、明らかな優位性を示している。
論文 参考訳(メタデータ) (2024-06-28T10:05:58Z) - 3D MRI Synthesis with Slice-Based Latent Diffusion Models: Improving Tumor Segmentation Tasks in Data-Scarce Regimes [2.8498944632323755]
本稿では,ボリュームデータ生成の複雑さに対処するスライスに基づく遅延拡散アーキテクチャを提案する。
この手法は,医療用画像と関連するマスクの同時分布モデルを拡張し,データスカース体制下での同時生成を可能にする。
構造は, 大きさ, 形状, 相対位置などの腫瘍特性によって調節できるため, 腫瘍の多様性は様々である。
論文 参考訳(メタデータ) (2024-06-08T09:53:45Z) - End-to-end autoencoding architecture for the simultaneous generation of
medical images and corresponding segmentation masks [3.1133049660590615]
ハミルトン変分オートエンコーダ(HVAE)に基づくエンドツーエンドアーキテクチャを提案する。
従来の変分オートエンコーダ(VAE)と比較して後部分布近似が向上する。
本手法は, 生成的逆境条件より優れ, 画像品質の向上を示す。
論文 参考訳(メタデータ) (2023-11-17T11:56:53Z) - ArSDM: Colonoscopy Images Synthesis with Adaptive Refinement Semantic
Diffusion Models [69.9178140563928]
大腸内視鏡検査は臨床診断や治療に不可欠である。
注釈付きデータの不足は、既存の手法の有効性と一般化を制限する。
本稿では, 下流作業に有用な大腸内視鏡画像を生成するために, 適応Refinement Semantic Diffusion Model (ArSDM)を提案する。
論文 参考訳(メタデータ) (2023-09-03T07:55:46Z) - Not All Image Regions Matter: Masked Vector Quantization for
Autoregressive Image Generation [78.13793505707952]
既存の自己回帰モデルは、まず画像再構成のための潜伏空間のコードブックを学習し、学習したコードブックに基づいて自己回帰的に画像生成を完了する2段階生成パラダイムに従っている。
そこで本研究では,Masked Quantization VAE (MQ-VAE) Stackモデルを用いた2段階フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T02:15:53Z) - Less is More: Unsupervised Mask-guided Annotated CT Image Synthesis with
Minimum Manual Segmentations [2.1785903900600316]
医用画像合成のための新しい手法,すなわちunsupervised Mask (UM)-guided synthesisを提案する。
UM誘導合成は、忠実度、多様性、有用性が著しく高い高品質な合成画像を提供する。
論文 参考訳(メタデータ) (2023-03-19T20:30:35Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - Stare at What You See: Masked Image Modeling without Reconstruction [154.74533119863864]
Masked Autoencoders (MAE) は、大規模な視覚表現事前学習のパラダイムとして広く普及している。
近年の手法では, 画像特徴を再構成対象として抽出するために, セマンティック・リッチな教師モデルが適用されており, 性能が向上している。
強力な教師モデルによって抽出された特徴は、画像中の領域間のリッチなセマンティックな相関を既にエンコードしていると論じる。
論文 参考訳(メタデータ) (2022-11-16T12:48:52Z) - Calibrated Hyperspectral Image Reconstruction via Graph-based
Self-Tuning Network [40.71031760929464]
ハイパースペクトルイメージング(HSI)は、特に符号化スナップショット分光イメージング(CASSI)システムに基づく画像に対して、研究の注目を集めている。
既存の深いHSI再構成モデルは、CASSIの特定の光学ハードウェアマスクが与える2次元圧縮計測に基づいて元の信号を取得するために、ペアデータで訓練される。
このマスク固有のトレーニングスタイルは、ハードウェアの誤校正問題を引き起こし、異なるハードウェアとノイズの多い環境間で深いHSIモデルをデプロイする障壁を設定できる。
マスクの空間構造の変化に適応する不確実性を推論するグラフベース自己調整(GST)ネットワークを提案する。
論文 参考訳(メタデータ) (2021-12-31T09:39:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。