論文の概要: Synthetic Augmentation with Large-scale Unconditional Pre-training
- arxiv url: http://arxiv.org/abs/2308.04020v1
- Date: Tue, 8 Aug 2023 03:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:15:03.085423
- Title: Synthetic Augmentation with Large-scale Unconditional Pre-training
- Title(参考訳): 大規模無条件事前訓練による合成強化
- Authors: Jiarong Ye, Haomiao Ni, Peng Jin, Sharon X. Huang, Yuan Xue
- Abstract要約: アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
- 参考スコア(独自算出の注目度): 4.162192894410251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based medical image recognition systems often require a
substantial amount of training data with expert annotations, which can be
expensive and time-consuming to obtain. Recently, synthetic augmentation
techniques have been proposed to mitigate the issue by generating realistic
images conditioned on class labels. However, the effectiveness of these methods
heavily depends on the representation capability of the trained generative
model, which cannot be guaranteed without sufficient labeled training data. To
further reduce the dependency on annotated data, we propose a synthetic
augmentation method called HistoDiffusion, which can be pre-trained on
large-scale unlabeled datasets and later applied to a small-scale labeled
dataset for augmented training. In particular, we train a latent diffusion
model (LDM) on diverse unlabeled datasets to learn common features and generate
realistic images without conditional inputs. Then, we fine-tune the model with
classifier guidance in latent space on an unseen labeled dataset so that the
model can synthesize images of specific categories. Additionally, we adopt a
selective mechanism to only add synthetic samples with high confidence of
matching to target labels. We evaluate our proposed method by pre-training on
three histopathology datasets and testing on a histopathology dataset of
colorectal cancer (CRC) excluded from the pre-training datasets. With
HistoDiffusion augmentation, the classification accuracy of a backbone
classifier is remarkably improved by 6.4% using a small set of the original
labels. Our code is available at https://github.com/karenyyy/HistoDiffAug.
- Abstract(参考訳): 深層学習に基づく医用画像認識システムは、専門家のアノテーションによるかなりの量のトレーニングデータを必要とすることが多い。
近年,クラスラベルに条件付けされたリアルな画像を生成することで問題を緩和する合成拡張技術が提案されている。
しかし、これらの手法の有効性は、十分なラベル付きトレーニングデータなしでは保証できない訓練された生成モデルの表現能力に大きく依存する。
さらに,アノテートデータへの依存を減らすために,大規模なラベルなしデータセットで事前学習し,後に小規模ラベル付きデータセットに適用して拡張トレーニングを行う,histodiffusionと呼ばれる合成拡張法を提案する。
特に,多種多様なラベル付きデータセット上に潜在拡散モデル(LDM)をトレーニングし,共通特徴を学習し,条件付き入力なしで現実的な画像を生成する。
そこで,本モデルでは,未確認ラベル付きデータセット上で,潜在空間の分類器ガイダンスを用いてモデルを微調整し,特定のカテゴリの画像を合成する。
さらに,ターゲットラベルとのマッチングの信頼性が高い合成試料のみを添加する選択的な機構を採用した。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
histodiffusionの強化により,backbone分類器の分類精度が6.4%向上した。
私たちのコードはhttps://github.com/karenyyy/HistoDiffAug.comで利用可能です。
関連論文リスト
- Group Distributionally Robust Dataset Distillation with Risk
Minimization [18.07189444450016]
本稿では,クラスタリングとリスク尺度の最小化を組み合わせ,DDを遂行する損失を最小化するアルゴリズムを提案する。
数値実験により,その有効一般化と部分群間のロバスト性を示す。
論文 参考訳(メタデータ) (2024-02-07T09:03:04Z) - How Can We Tame the Long-Tail of Chest X-ray Datasets? [0.0]
胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
非常に一般的に観測されており、CXRデータセットで十分に表現されているものはほとんどない。
現在のモデルでは、稀ではあるが高い意味を持つラベルの独立した差別的特徴を学習することは困難である。
論文 参考訳(メタデータ) (2023-09-08T12:28:40Z) - DiffInfinite: Large Mask-Image Synthesis via Parallel Random Patch
Diffusion in Histopathology [10.412322654017313]
任意の大きさの組織像を生成する階層拡散モデルDiffInfiniteを提案する。
提案手法は,任意の画像サイズにスケールアップできるが,高速トレーニングには小さなパッチのみが必要である。
論文 参考訳(メタデータ) (2023-06-23T09:10:41Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Diffusion-based Data Augmentation for Skin Disease Classification:
Impact Across Original Medical Datasets to Fully Synthetic Images [2.5075774184834803]
深層ニューラルネットワークは、過度な適合を避けるために、依然として大量のトレーニングデータに依存している。
医療のような現実世界のアプリケーションのためのラベル付きトレーニングデータには制限があり、アクセスが困難である。
我々は,我々の大脳皮質皮膚疾患データセットのトレーニングサンプルを増強する上で,テキスト・画像拡散確率モデルの成功を生かした。
論文 参考訳(メタデータ) (2023-01-12T04:22:23Z) - Intra-class Adaptive Augmentation with Neighbor Correction for Deep
Metric Learning [99.14132861655223]
深層学習のためのクラス内適応拡張(IAA)フレームワークを提案する。
クラスごとのクラス内変動を合理的に推定し, 適応型合成試料を生成し, 硬質試料の採掘を支援する。
本手法は,検索性能の最先端手法を3%~6%向上させる。
論文 参考訳(メタデータ) (2022-11-29T14:52:38Z) - Data Augmentation using Feature Generation for Volumetric Medical Images [0.08594140167290097]
医用画像分類は画像認識領域で最も重要な問題の一つである。
この分野での大きな課題の1つは、ラベル付きトレーニングデータの不足である。
特にディープラーニングモデルでは,画像のセグメンテーションや分類問題に関する有望な結果が示されている。
論文 参考訳(メタデータ) (2022-09-28T13:46:24Z) - Self-Supervised Learning as a Means To Reduce the Need for Labeled Data
in Medical Image Analysis [64.4093648042484]
胸部X線画像のデータセットとバウンディングボックスラベルを用いて,13種類の異常の分類を行った。
ラベル付きデータの平均精度と精度を60%に抑えることで,完全教師付きモデルと同等の性能が得られることを示す。
論文 参考訳(メタデータ) (2022-06-01T09:20:30Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。