論文の概要: Using Synthetic Data to estimate the True Error is theoretically and practically doable
- arxiv url: http://arxiv.org/abs/2511.00964v1
- Date: Sun, 02 Nov 2025 15:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.009315
- Title: Using Synthetic Data to estimate the True Error is theoretically and practically doable
- Title(参考訳): 合成データを用いて真誤りを推定することは理論的に実際可能である
- Authors: Hai Hoang Thanh, Duy-Tung Nguyen, Hung The Tran, Khoat Than,
- Abstract要約: 本研究では,限られたラベル付きデータ条件下での学習モデルの試験誤差を推定するために,合成データを用いて検討する。
そこで本研究では,モデル評価のための最適化された合成データを生成するための理論的基礎的手法を提案する。
- 参考スコア(独自算出の注目度): 2.2307507245827685
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurately evaluating model performance is crucial for deploying machine learning systems in real-world applications. Traditional methods often require a sufficiently large labeled test set to ensure a reliable evaluation. However, in many contexts, a large labeled dataset is costly and labor-intensive. Therefore, we sometimes have to do evaluation by a few labeled samples, which is theoretically challenging. Recent advances in generative models offer a promising alternative by enabling the synthesis of high-quality data. In this work, we make a systematic investigation about the use of synthetic data to estimate the test error of a trained model under limited labeled data conditions. To this end, we develop novel generalization bounds that take synthetic data into account. Those bounds suggest novel ways to optimize synthetic samples for evaluation and theoretically reveal the significant role of the generator's quality. Inspired by those bounds, we propose a theoretically grounded method to generate optimized synthetic data for model evaluation. Experimental results on simulation and tabular datasets demonstrate that, compared to existing baselines, our method achieves accurate and more reliable estimates of the test error.
- Abstract(参考訳): 機械学習システムを現実世界のアプリケーションにデプロイするには、モデルパフォーマンスの正確な評価が不可欠である。
従来の手法では、信頼できる評価を保証するために十分な大きなラベル付きテストセットを必要とすることが多い。
しかし、多くの文脈において、大きなラベル付きデータセットはコストが高く、労働集約的である。
そのため,いくつかのラベル付きサンプルで評価する必要がある場合があり,理論的には困難である。
生成モデルの最近の進歩は、高品質なデータの合成を可能にすることで、有望な代替手段を提供する。
本研究では,限られたラベル付きデータ条件下での学習モデルの試験誤差を推定するために,合成データの利用について体系的に検討する。
この目的のために、合成データを考慮に入れた新しい一般化境界を開発する。
これらの境界は、合成サンプルを最適化して評価し、理論上ジェネレータの品質の重要な役割を明らかにする新しい方法を示している。
そこで本研究では,モデル評価のための最適化された合成データを生成するための理論的基礎的手法を提案する。
シミュレーションと表計算による実験結果から,既存のベースラインと比較して,テスト誤差の正確かつ信頼性の高い推定値が得られた。
関連論文リスト
- Improving the Generation and Evaluation of Synthetic Data for Downstream Medical Causal Inference [89.5628648718851]
因果推論は医療介入の開発と評価に不可欠である。
現実の医療データセットは、規制障壁のためアクセスが難しいことが多い。
本稿では,医学における治療効果分析のための新しい合成データ生成法STEAMを提案する。
論文 参考訳(メタデータ) (2025-10-21T16:16:00Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。
合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文 参考訳(メタデータ) (2023-05-17T07:49:16Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Evaluation of Categorical Generative Models -- Bridging the Gap Between
Real and Synthetic Data [18.142397311464343]
生成モデルに対する適切な拡張性の評価手法を提案する。
我々は、より困難なモデリングタスクに対応する、ますます大きな確率空間を考える。
我々は, 合成生成モデルと最先端のカテゴリー生成モデルの両方について, 合成実験により評価方法を検証する。
論文 参考訳(メタデータ) (2022-10-28T21:05:25Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。