論文の概要: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- arxiv url: http://arxiv.org/abs/2308.00994v2
- Date: Mon, 11 Sep 2023 05:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-12 19:07:52.292841
- Title: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
- Title(参考訳): SynAuG: データ不均衡問題に対する合成データのエクスプロイト
- Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak,
Tae-Hyun Oh
- Abstract要約: 合成データを用いて与えられた不均衡分布を均一化するSynAuGを提案する。
このアプローチは、データ不均衡の問題に際し、データセットに顕著なパフォーマンスをもたらす。
既存のデータを合成データで補うことは、データの不均衡問題に対処する上で、効果的かつ重要なステップであることが証明されている。
- 参考スコア(独自算出の注目度): 42.04109198767737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We live in an era of data floods, and deep neural networks play a pivotal
role in this moment. Natural data inherently exhibits several challenges such
as long-tailed distribution and model fairness, where data imbalance is at the
center of fundamental issues. This imbalance poses a risk of deep neural
networks producing biased predictions, leading to potentially severe ethical
and social problems. To address these problems, we leverage the recent
generative models advanced in generating high-quality images. In this work, we
propose SYNAuG, which utilizes synthetic data to uniformize the given imbalance
distribution followed by a simple post-calibration step considering the domain
gap between real and synthetic data. This straightforward approach yields
impressive performance on datasets for distinctive data imbalance problems such
as CIFAR100-LT, ImageNet100-LT, UTKFace, and Waterbirds, surpassing the
performance of existing task-specific methods. While we do not claim that our
approach serves as a complete solution to the problem of data imbalance, we
argue that supplementing the existing data with synthetic data proves to be an
effective and crucial step in addressing data imbalance concerns.
- Abstract(参考訳): 私たちはデータ洪水の時代に生きており、ディープニューラルネットワークはこの瞬間において重要な役割を果たす。
自然データは本質的に、データ不均衡が根本的な問題の中心にあるロングテール分布やモデルフェアネスのようないくつかの課題を呈する。
この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクをもたらし、潜在的に厳しい倫理的・社会的問題を引き起こす。
これらの問題に対処するために、我々は、高品質な画像の生成に先立つ最近の生成モデルを活用する。
本研究では,合成データを用いて与えられた不均衡分布を統一し,さらに,実データと合成データの領域間ギャップを考慮した簡易なポストキャリブレーションステップを提案する。
この直接的なアプローチは、cifar100-lt、imagenet100-lt、utkface、waterbirdsなどの特徴的なデータ不均衡問題に対するデータセットの印象的なパフォーマンスをもたらす。
私たちは、このアプローチがデータの不均衡問題に対する完全な解決策であると主張することはしないが、既存のデータを合成データで補完することは、データの不均衡に対処する上で効果的かつ重要なステップであると主張する。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。
過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。
我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Synthetic Alone: Exploring the Dark Side of Synthetic Data for
Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。
データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。
合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文 参考訳(メタデータ) (2023-06-26T01:40:28Z) - Analyzing Effects of Fake Training Data on the Performance of Deep
Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。
GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。
本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文 参考訳(メタデータ) (2023-03-02T13:53:22Z) - SynBench: Task-Agnostic Benchmarking of Pretrained Representations using
Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。
本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文 参考訳(メタデータ) (2022-10-06T15:25:00Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。