論文の概要: Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation
- arxiv url: http://arxiv.org/abs/2409.10286v2
- Date: Tue, 01 Oct 2024 11:08:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-02 16:33:15.742615
- Title: Enhancing Image Classification in Small and Unbalanced Datasets through Synthetic Data Augmentation
- Title(参考訳): 合成データ拡張による小・不均衡データセットの画像分類の強化
- Authors: Neil De La Fuente, Mireia Majó, Irina Luzko, Henry Córdova, Gloria Fernández-Esparrach, Jorge Bernal,
- Abstract要約: 本稿では,クラス固有変分オートエンコーダ(VAE)と潜在空間を用いた,識別能力向上のための新しい合成拡張戦略を提案する。
特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。
提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Accurate and robust medical image classification is a challenging task, especially in application domains where available annotated datasets are small and present high imbalance between target classes. Considering that data acquisition is not always feasible, especially for underrepresented classes, our approach introduces a novel synthetic augmentation strategy using class-specific Variational Autoencoders (VAEs) and latent space interpolation to improve discrimination capabilities. By generating realistic, varied synthetic data that fills feature space gaps, we address issues of data scarcity and class imbalance. The method presented in this paper relies on the interpolation of latent representations within each class, thus enriching the training set and improving the model's generalizability and diagnostic accuracy. The proposed strategy was tested in a small dataset of 321 images created to train and validate an automatic method for assessing the quality of cleanliness of esophagogastroduodenoscopy images. By combining real and synthetic data, an increase of over 18\% in the accuracy of the most challenging underrepresented class was observed. The proposed strategy not only benefited the underrepresented class but also led to a general improvement in other metrics, including a 6\% increase in global accuracy and precision.
- Abstract(参考訳): 特に、利用可能な注釈付きデータセットが小さく、ターゲットクラス間で高い不均衡を示すアプリケーション領域では、正確な医用画像分類は難しい課題である。
データ取得が必ずしも実現可能とは限らないことを考えると、特に表現不足のクラスでは、クラス固有の変分オートエンコーダ(VAE)と潜在空間補間を用いた新しい合成拡張戦略を導入し、識別能力を向上させる。
特徴空間ギャップを埋めるリアルで多様な合成データを生成することにより、データの不足とクラス不均衡の問題に対処する。
本稿では,各クラス内の潜在表現の補間に依拠し,トレーニングセットを充実させ,モデルの一般化性と診断精度を向上させる。
提案手法は,エゾファゴガストロデュオ内視鏡画像の清潔度を自動評価する方法を訓練し,検証するために作成した321枚の画像の小さなデータセットで検証した。
実データと合成データを組み合わせることで,最も難易度の高いクラスを精度で18%以上増加させることができた。
提案した戦略は、不足しているクラスに恩恵を与えただけでなく、グローバルな精度と精度の65%向上など、他の指標の全般的な改善につながった。
関連論文リスト
- TSynD: Targeted Synthetic Data Generation for Enhanced Medical Image Classification [0.011037620731410175]
この研究は、生成モデルを誘導し、高い不確実性でデータを合成することを目的としている。
最適化プロセスによりオートエンコーダの特徴空間を変更する。
我々は,複数の分類タスクに対するテスト時間データ拡張と敵攻撃に対する堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-06-25T11:38:46Z) - Provable Optimization for Adversarial Fair Self-supervised Contrastive Learning [49.417414031031264]
本稿では,自己教師型学習環境におけるフェアエンコーダの学習について検討する。
すべてのデータはラベル付けされておらず、そのごく一部だけが機密属性で注釈付けされている。
論文 参考訳(メタデータ) (2024-06-09T08:11:12Z) - DALSA: Domain Adaptation for Supervised Learning From Sparsely Annotated
MR Images [2.352695945685781]
そこで本研究では,自動腫瘍セグメンテーションのための教師あり学習において,スパースアノテーションによるサンプル選択誤差を補正するトランスファーラーニング手法を提案する。
提案手法は,スパースおよび曖昧なアノテーションから,異なる組織クラスに対する高品質な分類法を導出する。
完全ラベル付きデータを用いたトレーニングと比較して, ラベル付け時間とトレーニング時間は, 精度を犠牲にすることなく, 70倍, 180倍に短縮した。
論文 参考訳(メタデータ) (2024-03-12T09:17:21Z) - Synthetic Augmentation with Large-scale Unconditional Pre-training [4.162192894410251]
アノテーション付きデータへの依存性を低減するため,HistoDiffusionという合成拡張手法を提案する。
HistoDiffusionは、大規模にラベル付けされていないデータセットで事前トレーニングし、その後、拡張トレーニングのために小さなラベル付きデータセットに適用することができる。
本手法は,3つの病理組織学的データセットを事前学習し,大腸癌の病理組織学的データセット(CRC)を事前学習データセットから除外して評価する。
論文 参考訳(メタデータ) (2023-08-08T03:34:04Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - SSL-CPCD: Self-supervised learning with composite pretext-class
discrimination for improved generalisability in endoscopic image analysis [3.1542695050861544]
深層学習に基づく教師付き手法は医用画像解析において広く普及している。
大量のトレーニングデータと、目に見えないデータセットに対する一般的な問題に直面する必要がある。
本稿では,加法的角マージンを用いたパッチレベルのインスタンスグループ識別とクラス間変動のペナル化について検討する。
論文 参考訳(メタデータ) (2023-05-31T21:28:08Z) - Classification of datasets with imputed missing values: does imputation
quality matter? [2.7646249774183]
不完全なデータセットでサンプルを分類するのは簡単ではない。
品質を評価するのによく使われる尺度がいかに欠陥があるかを実証する。
本稿では,データ全体の分布をいかに再現するかに焦点をあてた,新たな相違点のクラスを提案する。
論文 参考訳(メタデータ) (2022-06-16T22:58:03Z) - Imposing Consistency for Optical Flow Estimation [73.53204596544472]
プロキシタスクによる一貫性の導入は、データ駆動学習を強化することが示されている。
本稿では,光フロー推定のための新しい,効果的な整合性戦略を提案する。
論文 参考訳(メタデータ) (2022-04-14T22:58:30Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。