論文の概要: High-dimensional Analysis of Synthetic Data Selection
- arxiv url: http://arxiv.org/abs/2510.08123v1
- Date: Thu, 09 Oct 2025 12:06:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.056002
- Title: High-dimensional Analysis of Synthetic Data Selection
- Title(参考訳): 合成データ選択の高次元解析
- Authors: Parham Rezaei, Filip Kovacevic, Francesco Locatello, Marco Mondelli,
- Abstract要約: 線形モデルでは,対象分布と合成データの分布の共分散が一般化誤差に影響を与えることを示す。
興味深いことに、線形モデルからの理論的な洞察は、ディープニューラルネットワークと生成モデルに受け継がれる。
- 参考スコア(独自算出の注目度): 44.67519806837088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the progress in the development of generative models, their usefulness in creating synthetic data that improve prediction performance of classifiers has been put into question. Besides heuristic principles such as "synthetic data should be close to the real data distribution", it is actually not clear which specific properties affect the generalization error. Our paper addresses this question through the lens of high-dimensional regression. Theoretically, we show that, for linear models, the covariance shift between the target distribution and the distribution of the synthetic data affects the generalization error but, surprisingly, the mean shift does not. Furthermore we prove that, in some settings, matching the covariance of the target distribution is optimal. Remarkably, the theoretical insights from linear models carry over to deep neural networks and generative models. We empirically demonstrate that the covariance matching procedure (matching the covariance of the synthetic data with that of the data coming from the target distribution) performs well against several recent approaches for synthetic data selection, across training paradigms, architectures, datasets and generative models used for augmentation.
- Abstract(参考訳): 生成モデルの開発が進んでいるにもかかわらず、分類器の予測性能を向上させる合成データを作成する上での有用性が疑問視されている。
合成データは実際のデータ分布に近くなければならない」などのヒューリスティックな原理に加えて、特定の性質が一般化誤差にどのような影響を及ぼすかは明らかになっていない。
本稿は高次元回帰レンズを用いてこの問題に対処する。
理論的には、線形モデルの場合、対象分布と合成データの分布の共分散は一般化誤差に影響を与えるが、驚くべきことに平均シフトは影響しない。
さらに、ある設定では、対象分布の共分散に一致することが最適であることを示す。
興味深いことに、線形モデルからの理論的な洞察は、ディープニューラルネットワークと生成モデルに受け継がれる。
実験により,合成データと対象分布からのデータの共分散をマッチングする)共分散マッチング手法が,学習パラダイム,アーキテクチャ,データセット,生成モデルなど,最近の合成データ選択手法に対して有効であることを示す。
関連論文リスト
- Prismatic Synthesis: Gradient-based Data Diversification Boosts Generalization in LLM Reasoning [77.120955854093]
我々は,データ多様性が言語モデルにおける一般化の強力な予測因子であることを示す。
モデル誘起勾配のエントロピーを通して多様性を定量化する計量であるG-Vendiを導入する。
多様な合成データを生成するためのフレームワークであるPrismatic Synthesisを提案する。
論文 参考訳(メタデータ) (2025-05-26T16:05:10Z) - A Generalized Theory of Mixup for Structure-Preserving Synthetic Data [2.184775414778289]
混合は分散などの重要な統計特性を歪め、データ合成において意図しない結果をもたらす可能性があることを示す。
一般化されたフレキシブルな重み付け方式を取り入れた新しい混合手法を提案し,元のデータ構造をよりよく保存する。
数値実験により、新しい手法は元のデータの統計特性を保存できるだけでなく、繰り返し合成するモデル性能も維持できることを確認した。
論文 参考訳(メタデータ) (2025-03-03T14:28:50Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Understanding Pathologies of Deep Heteroskedastic Regression [25.509884677111344]
ヘテロスケダスティックモデルは各データポイントの平均ノイズと残留ノイズの両方を予測する。
極端に言えば、これらのモデルはすべてのトレーニングデータを完璧に適合させ、残音を完全に排除する。
他方では、一定で非形式的な平均を予測しながら残音を過度に補正する。
中間地盤の欠如を観察し, モデル正則化強度に依存する相転移を示唆した。
論文 参考訳(メタデータ) (2023-06-29T06:31:27Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。