論文の概要: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- arxiv url: http://arxiv.org/abs/2308.00994v3
- Date: Thu, 25 Apr 2024 09:53:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 23:57:24.377911
- Title: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- Title(参考訳): SynAuG: データ不均衡問題に対する合成データのエクスプロイト
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh,
- Abstract要約: 本稿では,データ不均衡問題に対処する合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実データと合成データの間には領域ギャップが存在するが,SynAuGを用いたトレーニングと,いくつかの実データを用いた微調整により,優れた性能が得られることを示した。
- 参考スコア(独自算出の注目度): 39.675787338941184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data imbalance in training data often leads to biased predictions from trained models, which in turn causes ethical and social issues. A straightforward solution is to carefully curate training data, but given the enormous scale of modern neural networks, this is prohibitively labor-intensive and thus impractical. Inspired by recent developments in generative models, this paper explores the potential of synthetic data to address the data imbalance problem. To be specific, our method, dubbed SYNAuG, leverages synthetic data to equalize the unbalanced distribution of training data. Our experiments demonstrate that, although a domain gap between real and synthetic data exists, training with SYNAuG followed by fine-tuning with a few real samples allows to achieve impressive performance on diverse tasks with different data imbalance issues, surpassing existing task-specific methods for the same purpose.
- Abstract(参考訳): トレーニングデータにおけるデータの不均衡は、しばしば訓練されたモデルからのバイアスのある予測をもたらし、それによって倫理的および社会的問題を引き起こす。
簡単な解決策は、トレーニングデータを慎重にキュレートすることだが、現代のニューラルネットワークの膨大な規模を考えると、これは労働集約的で非現実的だ。
生成モデルの最近の発展に触発された本研究では,データ不均衡問題に対処するための合成データの可能性について検討する。
具体的には、SynAuGと呼ばれる手法は、学習データの不均衡分布を等化するために合成データを利用する。
実験の結果,実データと合成データのドメインギャップはあるものの,SynAuGを用いたトレーニングに続いて,いくつかの実データを用いて微調整を行うことで,データ不均衡の問題に対処し,既存のタスク固有のメソッドを越えながら,多種多様なタスクにおける印象的なパフォーマンスを実現することができた。
関連論文リスト
- Few-shot learning for COVID-19 Chest X-Ray Classification with
Imbalanced Data: An Inter vs. Intra Domain Study [49.5374512525016]
医療画像データセットは、コンピュータ支援診断、治療計画、医学研究に使用される訓練モデルに不可欠である。
データ分散のばらつき、データの不足、ジェネリックイメージから事前トレーニングされたモデルを使用する場合の転送学習の問題などである。
本稿では,データ不足と分散不均衡の影響を軽減するために,一連の手法を統合したシームズニューラルネットワークに基づく手法を提案する。
論文 参考訳(メタデータ) (2024-01-18T16:59:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Does Synthetic Data Make Large Language Models More Efficient? [0.0]
本稿では,NLPにおける合成データ生成のニュアンスについて考察する。
データ拡張の可能性や構造化品種の導入など、その利点を強調します。
テンプレートベースの合成データが現代の変圧器モデルの性能に与える影響を実証する。
論文 参考訳(メタデータ) (2023-10-11T19:16:09Z) - On the Stability of Iterative Retraining of Generative Models on their
own Data [56.153542044045224]
生成モデルの訓練がデータセット(実データと合成データの混合データ)の安定性に及ぼす影響について検討した。
まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。
我々は,CIFAR10およびFFHQ上の正規化フローと最先端拡散モデルの反復的訓練により,合成画像と自然画像の両方に関する理論を実証的に検証した。
論文 参考訳(メタデータ) (2023-09-30T16:41:04Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - Resilient Neural Forecasting Systems [10.709321760368137]
産業用機械学習システムは、学術文献でしばしば過小評価されるデータ課題に直面している。
本稿では、労働計画におけるニューラル予測アプリケーションのコンテキストにおけるデータ課題と解決策について論じる。
本稿では,周期的リトレーニング方式によるデータ分布の変化に対処し,この設定におけるモデル安定性の重要性について論じる。
論文 参考訳(メタデータ) (2022-03-16T09:37:49Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Supercharging Imbalanced Data Learning With Energy-based Contrastive
Representation Transfer [72.5190560787569]
コンピュータビジョンにおいて、長い尾のデータセットからの学習は、特に自然画像データセットの繰り返しのテーマである。
本稿では,データ生成機構がラベル条件と特徴分布の間で不変であるメタ分散シナリオを提案する。
これにより、因果データインフレーションの手順を利用してマイノリティクラスの表現を拡大できる。
論文 参考訳(メタデータ) (2020-11-25T00:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。