論文の概要: Exploiting Synthetic Data for Data Imbalance Problems: Baselines from a
Data Perspective
- arxiv url: http://arxiv.org/abs/2308.00994v1
- Date: Wed, 2 Aug 2023 07:59:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 13:39:44.945539
- Title: Exploiting Synthetic Data for Data Imbalance Problems: Baselines from a
Data Perspective
- Title(参考訳): データ不均衡問題に対する合成データの利用:データの観点からのベースライン
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak,
Tae-Hyun Oh
- Abstract要約: 本稿では,タスク固有のアルゴリズムを用いる前に,合成データを予備的なステップとして利用する,シンプルで効果的なベースラインであるSynAuGを提案する。
このアプローチは、CIFAR100-LT、ImageNet100-LT、UTKFace、Waterbirdなどのデータセットで素晴らしいパフォーマンスを得る。
我々は、既存のデータを合成データで補うことは、データの不均衡問題に対処する上で、効果的かつ決定的な予備ステップであることが証明されていると論じる。
- 参考スコア(独自算出の注目度): 28.327342293828192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We live in a vast ocean of data, and deep neural networks are no exception to
this. However, this data exhibits an inherent phenomenon of imbalance. This
imbalance poses a risk of deep neural networks producing biased predictions,
leading to potentially severe ethical and social consequences. To address these
challenges, we believe that the use of generative models is a promising
approach for comprehending tasks, given the remarkable advancements
demonstrated by recent diffusion models in generating high-quality images. In
this work, we propose a simple yet effective baseline, SYNAuG, that utilizes
synthetic data as a preliminary step before employing task-specific algorithms
to address data imbalance problems. This straightforward approach yields
impressive performance on datasets such as CIFAR100-LT, ImageNet100-LT,
UTKFace, and Waterbird, surpassing the performance of existing task-specific
methods. While we do not claim that our approach serves as a complete solution
to the problem of data imbalance, we argue that supplementing the existing data
with synthetic data proves to be an effective and crucial preliminary step in
addressing data imbalance concerns.
- Abstract(参考訳): 私たちは膨大なデータの海に住んでいますし、ディープニューラルネットワークも例外ではありません。
しかし、このデータは本質的に不均衡な現象を示す。
この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクを生じさせ、潜在的に深刻な倫理的および社会的結果をもたらす。
これらの課題に対処するため、高画質画像生成における最近の拡散モデルによる顕著な進歩を考えると、生成モデルの利用はタスクの理解に有望なアプローチであると信じている。
本研究では,データ不均衡問題に対してタスク固有のアルゴリズムを用いる前段階として合成データを利用する,単純かつ効果的なベースラインであるsynaugを提案する。
この単純なアプローチは、CIFAR100-LT、ImageNet100-LT、UTKFace、Waterbirdなどのデータセットで、既存のタスク固有のメソッドのパフォーマンスを上回っている。
我々は、このアプローチがデータの不均衡問題に対する完全な解決策であると主張するわけではないが、既存のデータを合成データで補完することは、データの不均衡問題に対処する上で効果的かつ重要な予備的ステップであると主張する。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。