論文の概要: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- arxiv url: http://arxiv.org/abs/2308.00994v2
- Date: Mon, 11 Sep 2023 05:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:07:52.292841
- Title: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- Title(参考訳): SynAuG: データ不均衡問題に対する合成データのエクスプロイト
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak,
Tae-Hyun Oh
- Abstract要約: 合成データを用いて与えられた不均衡分布を均一化するSynAuGを提案する。
このアプローチは、データ不均衡の問題に際し、データセットに顕著なパフォーマンスをもたらす。
既存のデータを合成データで補うことは、データの不均衡問題に対処する上で、効果的かつ重要なステップであることが証明されている。
- 参考スコア(独自算出の注目度): 42.04109198767737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We live in an era of data floods, and deep neural networks play a pivotal
role in this moment. Natural data inherently exhibits several challenges such
as long-tailed distribution and model fairness, where data imbalance is at the
center of fundamental issues. This imbalance poses a risk of deep neural
networks producing biased predictions, leading to potentially severe ethical
and social problems. To address these problems, we leverage the recent
generative models advanced in generating high-quality images. In this work, we
propose SYNAuG, which utilizes synthetic data to uniformize the given imbalance
distribution followed by a simple post-calibration step considering the domain
gap between real and synthetic data. This straightforward approach yields
impressive performance on datasets for distinctive data imbalance problems such
as CIFAR100-LT, ImageNet100-LT, UTKFace, and Waterbirds, surpassing the
performance of existing task-specific methods. While we do not claim that our
approach serves as a complete solution to the problem of data imbalance, we
argue that supplementing the existing data with synthetic data proves to be an
effective and crucial step in addressing data imbalance concerns.
- Abstract(参考訳): 私たちはデータ洪水の時代に生きており、ディープニューラルネットワークはこの瞬間において重要な役割を果たす。
自然データは本質的に、データ不均衡が根本的な問題の中心にあるロングテール分布やモデルフェアネスのようないくつかの課題を呈する。
この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクをもたらし、潜在的に厳しい倫理的・社会的問題を引き起こす。
これらの問題に対処するために、我々は、高品質な画像の生成に先立つ最近の生成モデルを活用する。
本研究では,合成データを用いて与えられた不均衡分布を統一し,さらに,実データと合成データの領域間ギャップを考慮した簡易なポストキャリブレーションステップを提案する。
この直接的なアプローチは、cifar100-lt、imagenet100-lt、utkface、waterbirdsなどの特徴的なデータ不均衡問題に対するデータセットの印象的なパフォーマンスをもたらす。
私たちは、このアプローチがデータの不均衡問題に対する完全な解決策であると主張することはしないが、既存のデータを合成データで補完することは、データの不均衡に対処する上で効果的かつ重要なステップであると主張する。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - Resilient Neural Forecasting Systems [10.709321760368137]
産業用機械学習システムは、学術文献でしばしば過小評価されるデータ課題に直面している。
本稿では、労働計画におけるニューラル予測アプリケーションのコンテキストにおけるデータ課題と解決策について論じる。
本稿では,周期的リトレーニング方式によるデータ分布の変化に対処し,この設定におけるモデル安定性の重要性について論じる。
論文 参考訳(メタデータ) (2022-03-16T09:37:49Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。