論文の概要: Multiscale Vector-Quantized Variational Autoencoder for Endoscopic Image Synthesis
- arxiv url: http://arxiv.org/abs/2511.19578v1
- Date: Mon, 24 Nov 2025 18:23:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.108284
- Title: Multiscale Vector-Quantized Variational Autoencoder for Endoscopic Image Synthesis
- Title(参考訳): 内視鏡画像合成のためのマルチスケールベクトル量子変分オートエンコーダ
- Authors: Dimitrios E. Diamantis, Dimitris K. Iakovidis,
- Abstract要約: 本研究は,医用画像合成のための新しいVAEベースの方法論を導入し,そのWCE画像生成への応用について紹介する。
臨床診断支援のための生成画像の有用性を画像分類により評価する。
提案手法の汎用性は,医療マルチメディア関連分野に適用可能であることを保証している。
- 参考スコア(独自算出の注目度): 4.318555434063273
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Gastrointestinal (GI) imaging via Wireless Capsule Endoscopy (WCE) generates a large number of images requiring manual screening. Deep learning-based Clinical Decision Support (CDS) systems can assist screening, yet their performance relies on the existence of large, diverse, training medical datasets. However, the scarcity of such data, due to privacy constraints and annotation costs, hinders CDS development. Generative machine learning offers a viable solution to combat this limitation. While current Synthetic Data Generation (SDG) methods, such as Generative Adversarial Networks and Variational Autoencoders have been explored, they often face challenges with training stability and capturing sufficient visual diversity, especially when synthesizing abnormal findings. This work introduces a novel VAE-based methodology for medical image synthesis and presents its application for the generation of WCE images. The novel contributions of this work include a) multiscale extension of the Vector Quantized VAE model, named as Multiscale Vector Quantized Variational Autoencoder (MSVQ-VAE); b) unlike other VAE-based SDG models for WCE image generation, MSVQ-VAE is used to seamlessly introduce abnormalities into normal WCE images; c) it enables conditional generation of synthetic images, enabling the introduction of different types of abnormalities into the normal WCE images; d) it performs experiments with a variety of abnormality types, including polyps, vascular and inflammatory conditions. The utility of the generated images for CDS is assessed via image classification. Comparative experiments demonstrate that training a CDS classifier using the abnormal images generated by the proposed methodology yield comparable results with a classifier trained with only real data. The generality of the proposed methodology promises its applicability to various domains related to medical multimedia.
- Abstract(参考訳): WCE(Wireless Capsule Endoscopy)による消化管造影(GI)画像は、手動検診を必要とする多数の画像を生成する。
深層学習に基づく臨床決定支援システム(CDS)はスクリーニングを支援することができるが、その性能は大規模で多様な医療データセットの存在に依存している。
しかし、プライバシーの制約とアノテーションのコストのため、そのようなデータの不足はCDS開発を妨げる。
生成機械学習は、この制限に対処するための実行可能なソリューションを提供する。
現在のSDG法(Generative Adversarial Networks and Variational Autoencoders)は、訓練の安定性と十分な視覚的多様性、特に異常な発見を合成する際の課題に直面していることが多い。
本研究は,医用画像合成のための新しいVAEベースの方法論を導入し,そのWCE画像生成への応用について紹介する。
この作品の新規な貢献には、
a) マルチスケールベクトル量子変分オートエンコーダ(MSVQ-VAE)と呼ばれるベクトル量子化VAEモデルのマルチスケール拡張
b) WCE画像生成のための他のVAEベースのSDGモデルとは異なり、MSVQ-VAEは正常なWCE画像にシームレスに異常を導入するために使用される。
c) 合成画像の条件付き生成を可能にし、正常なWCE画像に異なる種類の異常を導入することができる。
d) ポリープ、血管および炎症状態を含む様々な異常型の実験を行う。
生成したCDS画像の有用性を画像分類により評価する。
比較実験により,提案手法が生成した異常画像を用いてCDS分類器を訓練することにより,実データのみで訓練した分類器と同等の結果が得られることが示された。
提案手法の汎用性は,医療マルチメディア関連分野に適用可能であることを保証している。
関連論文リスト
- Adapting Visual-Language Models for Generalizable Anomaly Detection in Medical Images [68.42215385041114]
本稿では,CLIPモデルを用いた医用異常検出のための軽量な多レベル適応と比較フレームワークを提案する。
提案手法では,複数の残像アダプタを事前学習した視覚エンコーダに統合し,視覚的特徴の段階的向上を実現する。
医学的異常検出ベンチマーク実験により,本手法が現在の最先端モデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2024-03-19T09:28:19Z) - Semantic Map Guided Synthesis of Wireless Capsule Endoscopy Images using
Diffusion Models [4.187344935012482]
ワイヤレスカプセル内視鏡(Wireless capsule endoscopy, WCE)は、消化管(GI)を可視化するための非侵襲的方法である。
本稿では,様々なWCE画像を生成するために生成モデル,特に拡散モデル(DM)を活用する新しいアプローチを提案する。
我々のモデルは、可視化スケール(VS)エンジンによるセマンティックマップを導入し、生成した画像の可制御性と多様性を向上させる。
論文 参考訳(メタデータ) (2023-11-10T06:16:44Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - This Intestine Does Not Exist: Multiscale Residual Variational
Autoencoder for Realistic Wireless Capsule Endoscopy Image Generation [7.430724826764835]
新規な変分オートエンコーダアーキテクチャ,すなわち "This Intestine Don Not Exist" (TIDE) を提案する。
提案アーキテクチャは,マルチスケールな特徴抽出畳み込みブロックと残差接続を備え,高品質で多様なデータセットの生成を可能にする。
利用可能なデータセットの増大を指向した現在のアプローチとは対照的に,本研究では,TIDEを用いて実際のWCEデータセットを完全に置換できることを実証する。
論文 参考訳(メタデータ) (2023-02-04T11:49:38Z) - OADAT: Experimental and Synthetic Clinical Optoacoustic Data for
Standardized Image Processing [62.993663757843464]
オプトアコースティック(OA)イメージングは、ナノ秒レーザーパルスによる生体組織の励起と、光吸収による熱弾性膨張によって発生する超音波の検出に基づいている。
OAイメージングは、深部組織における豊富な光学コントラストと高分解能の強力な組み合わせを特徴としている。
臨床環境でのOAの幅広い応用を促進するために、異なるタイプの実験的なセットアップと関連する処理手法で生成される標準化データセットは存在しない。
論文 参考訳(メタデータ) (2022-06-17T08:11:26Z) - Self-supervised Pseudo Multi-class Pre-training for Unsupervised Anomaly
Detection and Segmentation in Medical Images [31.676609117780114]
教師なし異常検出(UAD)法は、正常な(または健康な)画像のみを用いて訓練されるが、テスト中は正常な(または正常な)画像と異常な画像を分類することができる。
コントラスト学習(PMSACL)によるPseudo Multi-class Strong Augmentation(Pseudo Multi-class Strong Augmentation)という,MIA UADアプリケーションのための自己指導型事前学習手法を提案する。
論文 参考訳(メタデータ) (2021-09-03T04:25:57Z) - Modality Completion via Gaussian Process Prior Variational Autoencoders
for Multi-Modal Glioma Segmentation [75.58395328700821]
本稿では,患者スキャンに欠落するサブモダリティを1つ以上のインプットするために,MGP-VAE(Multi-modal Gaussian Process Prior Variational Autoencoder)を提案する。
MGP-VAEは、変分オートエンコーダ(VAE)に先立ってガウス過程(GP)を利用して、被験者/患者およびサブモダリティ相関を利用することができる。
4つのサブモダリティのうち2つ、または3つが欠落している脳腫瘍に対するMGP-VAEの適用性を示す。
論文 参考訳(メタデータ) (2021-07-07T19:06:34Z) - Generative Adversarial U-Net for Domain-free Medical Image Augmentation [49.72048151146307]
注釈付き医用画像の不足は、医用画像コンピューティングの分野における最大の課題の1つだ。
本稿では,生成逆U-Netという新しい生成手法を提案する。
当社の新しいモデルは、ドメインフリーで、さまざまな医療画像に汎用性があります。
論文 参考訳(メタデータ) (2021-01-12T23:02:26Z) - Pathological Retinal Region Segmentation From OCT Images Using Geometric
Relation Based Augmentation [84.7571086566595]
本稿では,幾何学と形状の内在的関係を共同で符号化することで,従来のGANベースの医用画像合成法よりも優れた手法を提案する。
提案手法は,取得手順の異なる画像を有する公開RETOUCHデータセット上で,最先端のセグメンテーション手法より優れている。
論文 参考訳(メタデータ) (2020-03-31T11:50:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。