論文の概要: Synthetic Augmentation with Large-scale Unconditional Pre-training
- arxiv url: http://arxiv.org/abs/2308.04020v1
- Date: Tue, 8 Aug 2023 03:34:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:15:03.085423
- Title: Synthetic Augmentation with Large-scale Unconditional Pre-training
- Title(参考訳): 大規模無条件事前訓練による合成強化
- Authors: Jiarong Ye, Haomiao Ni, Peng Jin, Sharon X. Huang, Yuan Xue
- Abstract要約: アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
- 参考スコア(独自算出の注目度): 4.162192894410251
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning based medical image recognition systems often require a
substantial amount of training data with expert annotations, which can be
expensive and time-consuming to obtain. Recently, synthetic augmentation
techniques have been proposed to mitigate the issue by generating realistic
images conditioned on class labels. However, the effectiveness of these methods
heavily depends on the representation capability of the trained generative
model, which cannot be guaranteed without sufficient labeled training data. To
further reduce the dependency on annotated data, we propose a synthetic
augmentation method called HistoDiffusion, which can be pre-trained on
large-scale unlabeled datasets and later applied to a small-scale labeled
dataset for augmented training. In particular, we train a latent diffusion
model (LDM) on diverse unlabeled datasets to learn common features and generate
realistic images without conditional inputs. Then, we fine-tune the model with
classifier guidance in latent space on an unseen labeled dataset so that the
model can synthesize images of specific categories. Additionally, we adopt a
selective mechanism to only add synthetic samples with high confidence of
matching to target labels. We evaluate our proposed method by pre-training on
three histopathology datasets and testing on a histopathology dataset of
colorectal cancer (CRC) excluded from the pre-training datasets. With
HistoDiffusion augmentation, the classification accuracy of a backbone
classifier is remarkably improved by 6.4% using a small set of the original
labels. Our code is available at https://github.com/karenyyy/HistoDiffAug.
- Abstract(参考訳): 深層学習に基づく医用画像認識システムは、専門家のアノテーションによるかなりの量のトレーニングデータを必要とすることが多い。
近年,クラスラベルに条件付けされたリアルな画像を生成することで問題を緩和する合成拡張技術が提案されている。
しかし、これらの手法の有効性は、十分なラベル付きトレーニングデータなしでは保証できない訓練された生成モデルの表現能力に大きく依存する。
さらに,アノテートデータへの依存を減らすために,大規模なラベルなしデータセットで事前学習し,後に小規模ラベル付きデータセットに適用して拡張トレーニングを行う,histodiffusionと呼ばれる合成拡張法を提案する。
特に,多種多様なラベル付きデータセット上に潜在拡散モデル(LDM)をトレーニングし,共通特徴を学習し,条件付き入力なしで現実的な画像を生成する。
そこで,本モデルでは,未確認ラベル付きデータセット上で,潜在空間の分類器ガイダンスを用いてモデルを微調整し,特定のカテゴリの画像を合成する。
さらに,ターゲットラベルとのマッチングの信頼性が高い合成試料のみを添加する選択的な機構を採用した。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
histodiffusionの強化により,backbone分類器の分類精度が6.4%向上した。
私たちのコードはhttps://github.com/karenyyy/HistoDiffAug.comで利用可能です。
関連論文リスト
- Continuous Contrastive Learning for Long-Tailed Semi-Supervised Recognition [50.61991746981703]
現在の最先端のLTSSLアプローチは、大規模な未ラベルデータに対して高品質な擬似ラベルに依存している。
本稿では,長期学習における様々な提案を統一する新しい確率的枠組みを提案する。
我々は、信頼度とスムーズな擬似ラベルを用いて、我々のフレームワークをラベルなしデータに拡張する、連続的コントラスト学習手法であるCCLを導入する。
論文 参考訳(メタデータ) (2024-10-08T15:06:10Z) - Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation [0.0]
本稿では,クラス固有変分オートエンコーダ(VAE)と潜在空間を用いた,識別能力向上のための新しい合成拡張戦略を提案する。
特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。
提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。
論文 参考訳(メタデータ) (2024-09-16T13:47:52Z) - Dataset Distillation for Histopathology Image Classification [46.04496989951066]
病理画像データセット(Histo-DD)に適した新しいデータセット蒸留アルゴリズムを提案する。
提案アルゴリズムの有効性を総合的に評価し, パッチレベルとスライドレベルの両方の分類タスクにおいて, 組織学的サンプルを生成する。
論文 参考訳(メタデータ) (2024-08-19T05:53:38Z) - Heavy Labels Out! Dataset Distillation with Label Space Lightening [69.67681224137561]
HeLlOは、合成画像から直接合成ラベルをオンラインで生成できる効果的な画像-ラベルプロジェクタを目指している。
ソフトラベルの完全なセットに必要な元のストレージの0.003%しか必要とせず、大規模データセット上での現在の最先端データセット蒸留法と同等のパフォーマンスを達成できることを実証した。
論文 参考訳(メタデータ) (2024-08-15T15:08:58Z) - Exploring Beyond Logits: Hierarchical Dynamic Labeling Based on Embeddings for Semi-Supervised Classification [49.09505771145326]
モデル予測に依存しない階層型動的ラベル付け(HDL)アルゴリズムを提案し,画像埋め込みを用いてサンプルラベルを生成する。
本手法は,半教師付き学習における擬似ラベル生成のパラダイムを変える可能性がある。
論文 参考訳(メタデータ) (2024-04-26T06:00:27Z) - How Can We Tame the Long-Tail of Chest X-ray Datasets? [0.0]
胸部X線(英: Chest X-rays、CXR)は、多数の異常を推測するために用いられる医療画像のモダリティである。
非常に一般的に観測されており、CXRデータセットで十分に表現されているものはほとんどない。
現在のモデルでは、稀ではあるが高い意味を持つラベルの独立した差別的特徴を学習することは困難である。
論文 参考訳(メタデータ) (2023-09-08T12:28:40Z) - DiffInfinite: Large Mask-Image Synthesis via Parallel Random Patch
Diffusion in Histopathology [10.412322654017313]
任意の大きさの組織像を生成する階層拡散モデルDiffInfiniteを提案する。
提案手法は,任意の画像サイズにスケールアップできるが,高速トレーニングには小さなパッチのみが必要である。
論文 参考訳(メタデータ) (2023-06-23T09:10:41Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Semi-supervised Medical Image Classification with Relation-driven
Self-ensembling Model [71.80319052891817]
医用画像分類のための関係駆動型半教師付きフレームワークを提案する。
これは、摂動下で与えられた入力の予測一貫性を促進することでラベルのないデータを利用する。
本手法は,シングルラベルおよびマルチラベル画像分類のシナリオにおいて,最先端の半教師付き学習手法よりも優れる。
論文 参考訳(メタデータ) (2020-05-15T06:57:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。