論文の概要: Real-Fake: Effective Training Data Synthesis Through Distribution
Matching
- arxiv url: http://arxiv.org/abs/2310.10402v1
- Date: Mon, 16 Oct 2023 13:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-17 14:19:30.709086
- Title: Real-Fake: Effective Training Data Synthesis Through Distribution
Matching
- Title(参考訳): Real-Fake:分散マッチングによる効果的なトレーニングデータ合成
- Authors: Jianhao Yuan and Jie Zhang and Shuyang Sun and Philip Torr and Bo Zhao
- Abstract要約: 教師あり学習のためのトレーニングデータ合成の基礎となる原理を解析する。
画像分類タスクにおける合成データの有効性を実証する。
また、アウト・オブ・ディストリビューションの一般化やプライバシー保護といった課題にも役立ちます。
- 参考スコア(独自算出の注目度): 17.700894929076153
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic training data has gained prominence in numerous learning tasks and
scenarios, offering advantages such as dataset augmentation, generalization
evaluation, and privacy preservation. Despite these benefits, the efficiency of
synthetic data generated by current methodologies remains inferior when
training advanced deep models exclusively, limiting its practical utility. To
address this challenge, we analyze the principles underlying training data
synthesis for supervised learning and elucidate a principled theoretical
framework from the distribution-matching perspective that explicates the
mechanisms governing synthesis efficacy. Through extensive experiments, we
demonstrate the effectiveness of our synthetic data across diverse image
classification tasks, both as a replacement for and augmentation to real
datasets, while also benefits challenging tasks such as out-of-distribution
generalization and privacy preservation.
- Abstract(参考訳): 合成トレーニングデータは、データセットの強化、一般化評価、プライバシー保護といった利点を提供する、多くの学習タスクやシナリオで注目を集めている。
これらの利点にもかかわらず、現在の手法によって生成された合成データの効率は、高度な深層モデルのみを訓練する際にも劣っている。
この課題に対処するために,教師付き学習のための学習データ合成の基礎となる原則を分析し,合成の有効性を規定するメカニズムを解明する分布マッチングの観点から原理的理論的枠組みを解明する。
広範な実験を通じて,実際のデータセットの置き換えや拡張として,多様な画像分類タスクにまたがる合成データの有効性を実証すると同時に,分散一般化やプライバシ保護といった困難な課題にも活用する。
関連論文リスト
- Improve Fidelity and Utility of Synthetic Credit Card Transaction Time
Series from Data-centric Perspective [10.996626204702189]
我々は、実際のデータに対する高い忠実性と、機械学習タスクに最適なユーティリティの両方を達成することに注力する。
本研究では,条件付き確率的自己回帰モデルのトレーニングを強化するために,5つの前処理スキーマを導入する。
我々の注目は、時系列データに適した不正検出モデルの訓練に移行し、合成データの有用性を評価することである。
論文 参考訳(メタデータ) (2024-01-01T22:34:14Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - A Study on Improving Realism of Synthetic Data for Machine Learning [6.806559012493756]
この研究は、合成レンダリングを、ラベルのない実世界のデータで条件付けられた汎用データセット上でより現実的なスタイルに変換する合成から現実への生成モデルを訓練し、評価することを目的としている。
論文 参考訳(メタデータ) (2023-04-24T21:41:54Z) - Personalizing Federated Learning with Over-the-Air Computations [84.8089761800994]
フェデレートされたエッジ学習は、プライバシー保護の方法で無線ネットワークのエッジにインテリジェンスをデプロイする、有望な技術である。
このような設定の下で、複数のクライアントは、エッジサーバの調整の下でグローバルジェネリックモデルを協調的にトレーニングする。
本稿では,アナログオーバー・ザ・エア計算を用いて通信ボトルネックに対処する分散トレーニングパラダイムを提案する。
論文 参考訳(メタデータ) (2023-02-24T08:41:19Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。
合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。
我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文 参考訳(メタデータ) (2021-08-25T02:29:28Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。