論文の概要: ViT-DAE: Transformer-driven Diffusion Autoencoder for Histopathology
Image Analysis
- arxiv url: http://arxiv.org/abs/2304.01053v1
- Date: Mon, 3 Apr 2023 15:00:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-04 14:53:57.396636
- Title: ViT-DAE: Transformer-driven Diffusion Autoencoder for Histopathology
Image Analysis
- Title(参考訳): ViT-DAE: 組織像解析のためのトランスフォーマー駆動拡散オートエンコーダ
- Authors: Xuan Xu, Saarthak Kapse, Rajarsi Gupta, Prateek Prasanna
- Abstract要約: 高品質な病理画像合成のための視覚変換器(ViT)と拡散オートエンコーダを統合したViT-DAEを提案する。
提案手法は, 実写画像生成におけるGAN法とバニラDAE法より優れている。
- 参考スコア(独自算出の注目度): 4.724009208755395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has received substantial attention in recent years due to its
ability to synthesize data that closely resembles the original data source.
While Generative Adversarial Networks (GANs) have provided innovative
approaches for histopathological image analysis, they suffer from limitations
such as mode collapse and overfitting in discriminator. Recently, Denoising
Diffusion models have demonstrated promising results in computer vision. These
models exhibit superior stability during training, better distribution
coverage, and produce high-quality diverse images. Additionally, they display a
high degree of resilience to noise and perturbations, making them well-suited
for use in digital pathology, where images commonly contain artifacts and
exhibit significant variations in staining. In this paper, we present a novel
approach, namely ViT-DAE, which integrates vision transformers (ViT) and
diffusion autoencoders for high-quality histopathology image synthesis. This
marks the first time that ViT has been introduced to diffusion autoencoders in
computational pathology, allowing the model to better capture the complex and
intricate details of histopathology images. We demonstrate the effectiveness of
ViT-DAE on three publicly available datasets. Our approach outperforms recent
GAN-based and vanilla DAE methods in generating realistic images.
- Abstract(参考訳): 生成aiは、元のデータソースによく似たデータを合成する能力によって、近年かなりの注目を集めている。
generative adversarial networks (gans) は病理組織学的画像解析に革新的なアプローチを提供してきたが、モード崩壊や判別器の過剰フィットといった限界に苦しめられている。
近年,ノイズ拡散モデルがコンピュータビジョンにおいて有望な結果を示している。
これらのモデルはトレーニング中に優れた安定性を示し、分散カバレッジが向上し、高品質な多様な画像を生成する。
さらに、ノイズや摂動に対する高い弾力性を示しており、画像は一般的に人工物を含み、染色のかなりのバリエーションを示すデジタル病理学での使用に適している。
本稿では,視覚変換器(ViT)と拡散オートエンコーダを統合し,高品質な病理画像合成を行う新しいアプローチであるViT-DAEを提案する。
vitが計算病理学の拡散オートエンコーダに導入されたのはこれが初めてであり、このモデルが組織病理画像の複雑で複雑な詳細をよりよく捉えることができる。
公開されている3つのデータセットに対するViT-DAEの有効性を示す。
提案手法は, 実写画像生成におけるGAN法とバニラDAE法より優れている。
関連論文リスト
- Learned representation-guided diffusion models for large-image
generation [60.698616089211505]
自己教師型学習(SSL)からの埋め込みを条件とした拡散モデルを訓練する新しいアプローチを導入する。
我々の拡散モデルは、これらの特徴を高品質な病理組織学およびリモートセンシング画像に投影することに成功した。
実画像のバリエーションを生成して実データを増やすことにより、パッチレベルおよび大規模画像分類タスクの下流精度が向上する。
論文 参考訳(メタデータ) (2023-12-12T14:45:45Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - Diffusion Reconstruction of Ultrasound Images with Informative
Uncertainty [5.375425938215277]
超音波画像の品質を高めるには、コントラスト、解像度、スペックル保存といった同時的な要因のバランスを取る必要がある。
拡散モデルの進歩を生かしたハイブリッドアプローチを提案する。
シミュレーション,in-vitro,in-vivoデータの総合的な実験を行い,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-31T16:51:40Z) - Adaptive Input-image Normalization for Solving the Mode Collapse Problem
in GAN-based X-ray Images [0.08192907805418582]
この研究は、適応入力-画像正規化をDeep Conversaal GANとAuxiliary GANと統合してモード崩壊問題を緩和する利点の実証的な実証に寄与する。
その結果, 適応入出力正規化によるDCGANとACGANは, 非正規化X線画像でDCGANとACGANより優れていた。
論文 参考訳(メタデータ) (2023-09-21T16:43:29Z) - On Sensitivity and Robustness of Normalization Schemes to Input
Distribution Shifts in Automatic MR Image Diagnosis [58.634791552376235]
深層学習(DL)モデルは、再構成画像を入力として、複数の疾患の診断において最先端のパフォーマンスを達成した。
DLモデルは、トレーニングとテストフェーズ間の入力データ分布の変化につながるため、さまざまなアーティファクトに敏感である。
本稿では,グループ正規化やレイヤ正規化といった他の正規化手法を用いて,画像のさまざまなアーチファクトに対して,モデル性能にロバスト性を注入することを提案する。
論文 参考訳(メタデータ) (2023-06-23T03:09:03Z) - Intriguing properties of synthetic images: from generative adversarial
networks to diffusion models [19.448196464632]
実際の画像と偽画像を区別する上で,どの画像の特徴がより優れているかを知ることが重要である。
本稿では, 実画像と生成画像の最も法学的に関係した特徴を発見することを目的とした, 異なる家系の多数の画像生成装置の系統的研究について報告する。
論文 参考訳(メタデータ) (2023-04-13T11:13:19Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Conditioned Generative Transformers for Histopathology Image Synthetic
Augmentation [3.1616973611119494]
視覚変換器 (ViT) を用いたGAN (Generative Adversarial Network) は, 一般画像合成において優れた可能性を示した。
病理組織像の合成増強のために, 純粋な ViT ベースの条件付き GAN モデルを提案する。
論文 参考訳(メタデータ) (2022-12-20T03:40:44Z) - Fast Unsupervised Brain Anomaly Detection and Segmentation with
Diffusion Models [1.6352599467675781]
脳画像における異常検出とセグメント分割のための拡散モデルに基づく手法を提案する。
拡散モデルは,2次元CTおよびMRIデータを用いた一連の実験において,自己回帰的アプローチと比較して競争性能が向上する。
論文 参考訳(メタデータ) (2022-06-07T17:30:43Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Diffusion-Weighted Magnetic Resonance Brain Images Generation with
Generative Adversarial Networks and Variational Autoencoders: A Comparison
Study [55.78588835407174]
本研究では,高画質,多彩で現実的な拡散重み付き磁気共鳴画像が深部生成モデルを用いて合成可能であることを示す。
Introspective Variational AutoencoderとStyle-Based GANの2つのネットワークを医療分野におけるデータ拡張の資格として提示する。
論文 参考訳(メタデータ) (2020-06-24T18:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。