Fugu-MT 論文翻訳(概要): Utility Theory of Synthetic Data Generation

論文の概要: Utility Theory of Synthetic Data Generation

arxiv url: http://arxiv.org/abs/2305.10015v1
Date: Wed, 17 May 2023 07:49:16 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 17:05:12.893092
Title: Utility Theory of Synthetic Data Generation
Title（参考訳）: 合成データ生成の実用性理論
Authors: Shirong Xu and Will Wei Sun and Guang Cheng
Abstract要約: 本研究の目的は,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することである。この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。また,合成データを用いたモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。
参考スコア（独自算出の注目度）: 17.826241775212786
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Evaluating the utility of synthetic data is critical for measuring the effectiveness and efficiency of synthetic algorithms. Existing results focus on empirical evaluations of the utility of synthetic data, whereas the theoretical understanding of how utility is affected by synthetic data algorithms remains largely unexplored. This paper establishes utility theory from a statistical perspective, aiming to quantitatively assess the utility of synthetic algorithms based on a general metric. The metric is defined as the absolute difference in generalization between models trained on synthetic and original datasets. We establish analytical bounds for this utility metric to investigate critical conditions for the metric to converge. An intriguing result is that the synthetic feature distribution is not necessarily identical to the original one for the convergence of the utility metric as long as the model specification in downstream learning tasks is correct. Another important utility metric is model comparison based on synthetic data. Specifically, we establish sufficient conditions for synthetic data algorithms so that the ranking of generalization performances of models trained on the synthetic data is consistent with that from the original data. Finally, we conduct extensive experiments using non-parametric models and deep neural networks to validate our theoretical findings.
Abstract（参考訳）: 合成データの有用性を評価することは、合成アルゴリズムの有効性と効率を測定する上で重要である。既存の結果は, 合成データの有用性の実証的評価に焦点が当てられているが, 合成データアルゴリズムによる有用性への影響に関する理論的理解は未解明のままである。本稿では,一般計量に基づく合成アルゴリズムの有用性を定量的に評価することを目的として,統計的観点から実用理論を確立する。この計量は、合成データセットと元のデータセットで訓練されたモデル間の一般化の絶対差として定義される。我々は、この実用計量に対する解析的境界を確立し、計量が収束する臨界条件を調べる。興味深い結果は、下流学習タスクのモデル仕様が正しい限り、合成特徴分布がユーティリティメトリックの収束のために元のものと必ずしも同一ではないことである。もう一つの重要な実用指標は、合成データに基づくモデル比較である。具体的には,合成データを用いて学習したモデルの一般化性能のランキングが元のデータと一致するように,合成データアルゴリズムの十分な条件を確立する。最後に,非パラメトリックモデルとディープニューラルネットワークを用いた広範な実験を行い,理論的知見の検証を行った。

関連論文リスト

Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
A Theoretical Perspective: How to Prevent Model Collapse in Self-consuming Training Loops [55.07063067759609]
高品質なデータは大規模な生成モデルのトレーニングには不可欠だが、オンラインで利用可能な実際のデータの膨大な蓄積はほとんど枯渇している。モデルは、さらなるトレーニングのために独自のデータを生成し、自己消費訓練ループ(STL)を形成する。一部のモデルは劣化または崩壊するが、他のモデルはこれらの失敗をうまく回避し、理論的な理解にかなりのギャップを残している。
論文参考訳（メタデータ） (2025-02-26T06:18:13Z)
How to Synthesize Text Data without Model Collapse? [37.219627817995054]
合成データのモデル崩壊は、自己生成データに対する反復的なトレーニングが徐々に性能を低下させることを示している。半合成データを得るために,人為的データに対するトークン編集を提案する。
論文参考訳（メタデータ） (2024-12-19T09:43:39Z)
Benchmarking the Fidelity and Utility of Synthetic Relational Data [1.024113475677323]
我々は、関係データ合成、共通ベンチマークデータセット、および合成データの忠実性と有用性を測定するためのアプローチに関する関連研究についてレビューする。ベストプラクティスと、新しい堅牢な検出アプローチをベンチマークツールに組み合わせて、6つのメソッドを比較します。実用面では、モデル予測性能と特徴量の両方において、実データと合成データの適度な相関が観察されるのが一般的である。
論文参考訳（メタデータ） (2024-10-04T13:23:45Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文参考訳（メタデータ） (2024-06-05T21:24:26Z)
Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文参考訳（メタデータ） (2024-02-19T02:08:09Z)
A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets [4.389150156866014]
最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
論文参考訳（メタデータ） (2024-02-06T13:20:46Z)
The Real Deal Behind the Artificial Appeal: Inferential Utility of Tabular Synthetic Data [40.165159490379146]
評価値が不偏であっても, 偽陽性の発見率(タイプ1の誤り)は不可避的に高いことが示唆された。以前提案された補正係数が使用されているにもかかわらず、この問題は深層生成モデルに対して持続する。
論文参考訳（メタデータ） (2023-12-13T02:04:41Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
On the Stability of Iterative Retraining of Generative Models on their own Data [56.153542044045224]
混合データセットに対する生成モデルの訓練が与える影響について検討する。まず、初期生成モデルがデータ分布を十分に近似する条件下で反復学習の安定性を実証する。我々は、正規化フローと最先端拡散モデルを繰り返し訓練することにより、合成画像と自然画像の両方に関する我々の理論を実証的に検証する。
論文参考訳（メタデータ） (2023-09-30T16:41:04Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
A Scaling Law for Synthetic-to-Real Transfer: A Measure of Pre-Training [52.93808218720784]
合成から現実への変換学習は,実タスクのための合成画像と接地真実アノテーションを用いた事前学習を行うフレームワークである。合成画像はデータの不足を克服するが、事前訓練されたモデルで微調整性能がどのようにスケールするかは定かではない。我々は、合成事前学習データの様々なタスク、モデル、複雑さにおける学習曲線を一貫して記述する、単純で一般的なスケーリング法則を観察する。
論文参考訳（メタデータ） (2021-08-25T02:29:28Z)
Simple Imputation Rules for Prediction with Missing Data: Contrasting Theoretical Guarantees with Empirical Performance [7.642646077340124]
実際のデータセットでは、データの欠落が一般的な問題である。本稿では, 理論的, 実証的証拠を対比して, 即効性パイプラインの性能について検討する。
論文参考訳（メタデータ） (2021-04-07T14:45:14Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。