Fugu-MT 論文翻訳(概要): A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets

論文の概要: A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets

arxiv url: http://arxiv.org/abs/2402.03985v2
Date: Thu, 23 May 2024 13:35:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-25 06:59:47.219527
Title: A Bias-Variance Decomposition for Ensembles over Multiple Synthetic Datasets
Title（参考訳）: 複数の合成データセット上のアンサンブルのバイアス分散分解
Authors: Ossi Räisä, Antti Honkela,
Abstract要約: 最近の研究は、教師あり学習のための複数の合成データセットを生成する利点を強調している。これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。複数の合成データセットを使用するいくつかの設定に対して、バイアス分散分解を導出することで理論的理解を高めることを目指す。
参考スコア（独自算出の注目度）: 4.389150156866014
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent studies have highlighted the benefits of generating multiple synthetic datasets for supervised learning, from increased accuracy to more effective model selection and uncertainty estimation. These benefits have clear empirical support, but the theoretical understanding of them is currently very light. We seek to increase the theoretical understanding by deriving bias-variance decompositions for several settings of using multiple synthetic datasets, including differentially private synthetic data. Our theory predicts multiple synthetic datasets to be especially beneficial for high-variance downstream predictors, and yields a simple rule of thumb to select the appropriate number of synthetic datasets in the case of mean-squared error and Brier score. We investigate how our theory works in practice by evaluating the performance of an ensemble over many synthetic datasets for several real datasets and downstream predictors. The results follow our theory, showing that our insights are practically relevant.
Abstract（参考訳）: 近年の研究では、精度の向上からより効果的なモデル選択、不確実性推定に至るまで、教師あり学習のための複数の合成データセットを生成する利点を強調している。これらの利点は明らかな実証的な支持を持っているが、理論的な理解は今のところ非常に軽い。差分プライベートな合成データを含む複数の合成データセットを用いて, 偏差分解を導出して理論的理解を高めることを目指す。提案理論は,複数の合成データセットを高分散下流予測器に特に有用であると予測し,平均二乗誤差およびブライアスコアの場合の適切な数の合成データセットを選択するために,親指の簡単な規則を導出する。我々は,本理論が実際にどのように機能するかを,複数の実際のデータセットと下流予測器に対する多くの合成データセットに対するアンサンブルの性能を評価することによって検討する。結果は我々の理論に従い、我々の洞察が事実上関連していることを示している。

関連論文リスト

Improving Predictions on Highly Unbalanced Data Using Open Source Synthetic Data Upsampling [0.0]
特徴空間のスパース領域におけるギャップを埋める多様なデータポイントを生成することにより,少数群の予測精度を向上させることができることを示す。我々はMOSTLY AIによるオープンソースソリューションであるSynthetic Data SDKの有効性を評価する。
論文参考訳（メタデータ） (2025-07-22T10:11:32Z)
What's Wrong with Your Synthetic Tabular Data? Using Explainable AI to Evaluate Generative Models [1.024113475677323]
我々は、実データと合成データとを区別するために訓練されたバイナリ検出分類器に、説明可能なAI(XAI)技術を適用した。分類器は分布差を識別するが、XAIの概念は置換特徴の重要性、部分依存プロット、シェープリー値などの方法で解析され、なぜ合成データが識別可能であるかを明らかにする。この解釈可能性は、合成データ評価における透明性を高め、従来のメトリクスを超えて深い洞察を提供する。
論文参考訳（メタデータ） (2025-04-29T12:10:52Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
An Effective Theory of Bias Amplification [18.648588509429167]
機械学習モデルは、データに存在するバイアスをキャプチャして増幅し、社会的グループ間で異なるテストパフォーマンスをもたらす。本稿では、従来のニューラルネットワークを単純化した状態下でモデル化するリッジ回帰の文脈において、正確な解析理論を提案する。我々の理論は、機械学習バイアスの統一的で厳密な説明を提供し、バイアス増幅やマイノリティグループバイアスのような現象に関する洞察を提供する。
論文参考訳（メタデータ） (2024-10-07T08:43:22Z)
Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文参考訳（メタデータ） (2024-09-26T08:03:19Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡なデータと急激な相関は、機械学習とデータサイエンスにおける一般的な課題である。過度に表現されていないクラスのインスタンス数を人工的に増加させるオーバーサンプリングは、これらの課題に対処するために広く採用されている。我々は,大規模言語モデルの能力を活用して,少数グループを対象とした高品質な合成データを生成する,体系的なオーバーサンプリング手法であるOPALを紹介する。
論文参考訳（メタデータ） (2024-06-05T21:24:26Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Hodge-Aware Contrastive Learning [101.56637264703058]
単純コンプレックスは、マルチウェイ依存によるデータのモデリングに有効である。我々は、単純なデータを処理するための対照的な自己教師付き学習手法を開発した。
論文参考訳（メタデータ） (2023-09-14T00:40:07Z)
Utility Theory of Synthetic Data Generation [12.511220449652384]
本稿では,統計的学習フレームワークにおける実用理論の確立により,実践と理論のギャップを埋める。合成データに基づいてトレーニングされたモデルの一般化とランキングの2つのユーティリティメトリクスを考慮に入れている。
論文参考訳（メタデータ） (2023-05-17T07:49:16Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Investigating Bias with a Synthetic Data Generator: Empirical Evidence and Philosophical Interpretation [66.64736150040093]
機械学習の応用は、私たちの社会でますます広まりつつある。リスクは、データに埋め込まれたバイアスを体系的に広めることである。本稿では,特定の種類のバイアスとその組み合わせで合成データを生成するフレームワークを導入することにより,バイアスを分析することを提案する。
論文参考訳（メタデータ） (2022-09-13T11:18:50Z)
CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文参考訳（メタデータ） (2022-03-03T05:58:49Z)
Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文参考訳（メタデータ） (2020-11-16T21:49:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。