Fugu-MT 論文翻訳(概要): SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems

論文の概要: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems

arxiv url: http://arxiv.org/abs/2308.00994v2
Date: Mon, 11 Sep 2023 05:06:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-12 19:07:52.292841
Title: SYNAuG: Exploiting Synthetic Data for Data Imbalance Problems
Title（参考訳）: SynAuG: データ不均衡問題に対する合成データのエクスプロイト
Authors: Moon Ye-Bin, Nam Hyeon-Woo, Wonseok Choi, Nayeong Kim, Suha Kwak, Tae-Hyun Oh
Abstract要約: 合成データを用いて与えられた不均衡分布を均一化するSynAuGを提案する。このアプローチは、データ不均衡の問題に際し、データセットに顕著なパフォーマンスをもたらす。既存のデータを合成データで補うことは、データの不均衡問題に対処する上で、効果的かつ重要なステップであることが証明されている。
参考スコア（独自算出の注目度）: 42.04109198767737
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We live in an era of data floods, and deep neural networks play a pivotal role in this moment. Natural data inherently exhibits several challenges such as long-tailed distribution and model fairness, where data imbalance is at the center of fundamental issues. This imbalance poses a risk of deep neural networks producing biased predictions, leading to potentially severe ethical and social problems. To address these problems, we leverage the recent generative models advanced in generating high-quality images. In this work, we propose SYNAuG, which utilizes synthetic data to uniformize the given imbalance distribution followed by a simple post-calibration step considering the domain gap between real and synthetic data. This straightforward approach yields impressive performance on datasets for distinctive data imbalance problems such as CIFAR100-LT, ImageNet100-LT, UTKFace, and Waterbirds, surpassing the performance of existing task-specific methods. While we do not claim that our approach serves as a complete solution to the problem of data imbalance, we argue that supplementing the existing data with synthetic data proves to be an effective and crucial step in addressing data imbalance concerns.
Abstract（参考訳）: 私たちはデータ洪水の時代に生きており、ディープニューラルネットワークはこの瞬間において重要な役割を果たす。自然データは本質的に、データ不均衡が根本的な問題の中心にあるロングテール分布やモデルフェアネスのようないくつかの課題を呈する。この不均衡は、偏りのある予測を生み出すディープニューラルネットワークのリスクをもたらし、潜在的に厳しい倫理的・社会的問題を引き起こす。これらの問題に対処するために、我々は、高品質な画像の生成に先立つ最近の生成モデルを活用する。本研究では,合成データを用いて与えられた不均衡分布を統一し,さらに,実データと合成データの領域間ギャップを考慮した簡易なポストキャリブレーションステップを提案する。この直接的なアプローチは、cifar100-lt、imagenet100-lt、utkface、waterbirdsなどの特徴的なデータ不均衡問題に対するデータセットの印象的なパフォーマンスをもたらす。私たちは、このアプローチがデータの不均衡問題に対する完全な解決策であると主張することはしないが、既存のデータを合成データで補完することは、データの不均衡に対処する上で効果的かつ重要なステップであると主張する。

関連論文リスト

Less is More: Adaptive Coverage for Synthetic Training Data [20.136698279893857]
本研究では,最大カバレッジ問題に基づく新しいサンプリングアルゴリズムを導入し,合成されたデータセットから代表サブセットを選択する。この結果から,この文脈的にサンプリングされたサブセット上での分類器のトレーニングは,データセット全体のトレーニングよりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2025-04-20T06:45:16Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
Golden Ratio Weighting Prevents Model Collapse [9.087950471621653]
近年の研究では、モデル崩壊として知られる生成モデルトレーニングにおける現象が特定されている。本稿では,新たに収集した実データと合成データを組み合わせて生成モデルを反復的に訓練する新しい枠組みの中で,この現象を理論的に検討する。
論文参考訳（メタデータ） (2025-02-25T10:15:16Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文参考訳（メタデータ） (2024-06-05T21:24:26Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Synthetic Alone: Exploring the Dark Side of Synthetic Data for Grammatical Error Correction [5.586798679167892]
データ中心のAIアプローチは、モデルを変更することなく、モデルのパフォーマンスを向上させることを目的としている。データ品質管理手法は、実世界のデータで訓練されたモデルに肯定的な影響を与える。合成データのみに基づいて訓練されたモデルでは、負の影響が観測される。
論文参考訳（メタデータ） (2023-06-26T01:40:28Z)
Analyzing Effects of Fake Training Data on the Performance of Deep Learning Systems [0.0]
ディープラーニングモデルは、クラス不均衡や分散シフトに対する堅牢性の欠如など、さまざまな問題に悩まされることが多い。 GAN(Generative Adversarial Networks)の出現により、高品質な合成データを生成することが可能になった。本研究では, 各種合成データと原データとを混合した場合, アウト・オブ・ディストリビューションデータに対するモデルの堅牢性と, 予測の一般品質に影響を及ぼす影響を解析する。
論文参考訳（メタデータ） (2023-03-02T13:53:22Z)
SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data [78.21197488065177]
近年、下流のタスクで大規模なデータで事前訓練された微調整大型モデルが成功し、ディープラーニングにおける重要なパラダイムシフトにつながった。本稿では,合成データを用いて事前学習した表現の質を測定するためのタスク非依存フレームワークであるtextitSynBenchを提案する。
論文参考訳（メタデータ） (2022-10-06T15:25:00Z)
A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文参考訳（メタデータ） (2021-08-25T02:29:28Z)
Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文参考訳（メタデータ） (2021-05-10T06:57:14Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。