論文の概要: Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees
- arxiv url: http://arxiv.org/abs/2509.20345v1
- Date: Wed, 24 Sep 2025 17:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.926098
- Title: Statistical Inference Leveraging Synthetic Data with Distribution-Free Guarantees
- Title(参考訳): 分布のない保証付き合成データを利用した統計的推測
- Authors: Meshi Bashari, Yonghoon Lee, Roy Maor Lotan, Edgar Dobriban, Yaniv Romano,
- Abstract要約: 高品質な合成データは、統計的推測の機会と課題の両方を提示する。
本稿では,任意の統計的推論手順をラップするGEneral Synthetic-Powered Inferenceフレームワークを提案する。
我々のフレームワークは、高品質な合成データを活用して統計的パワーを向上するが、実際のデータのみを用いて標準推論法に適応的にデフォルトとする。
- 参考スコア(独自算出の注目度): 27.512077526249524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of high-quality synthetic data -- generated by advanced AI models or collected as auxiliary data from related tasks -- presents both opportunities and challenges for statistical inference. This paper introduces a GEneral Synthetic-Powered Inference (GESPI) framework that wraps around any statistical inference procedure to safely enhance sample efficiency by combining synthetic and real data. Our framework leverages high-quality synthetic data to boost statistical power, yet adaptively defaults to the standard inference method using only real data when synthetic data is of low quality. The error of our method remains below a user-specified bound without any distributional assumptions on the synthetic data, and decreases as the quality of the synthetic data improves. This flexibility enables seamless integration with conformal prediction, risk control, hypothesis testing, and multiple testing procedures, all without modifying the base inference method. We demonstrate the benefits of our method on challenging tasks with limited labeled data, including AlphaFold protein structure prediction, and comparing large reasoning models on complex math problems.
- Abstract(参考訳): 高度なAIモデルによって生成された、あるいは関連するタスクから補助データとして収集された高品質な合成データの急速な拡散は、統計的推測の機会と課題の両方を提示する。
本稿では, GESPI(GEneral Synthetic-Powered Inference)フレームワークを提案する。
筆者らのフレームワークは, 高品質な合成データを活用して, 統計的パワーを向上するが, 合成データが低品質である場合, 実データのみを用いて標準推定法に適応的にデフォルトを定めている。
提案手法の誤差は, 合成データの分布的仮定を伴わずに, ユーザ指定境界以下に留まり, 合成データの質が向上するにつれて減少する。
この柔軟性により、ベース推論メソッドを変更することなく、共形予測、リスク制御、仮説テスト、および複数のテスト手順とのシームレスな統合が可能になる。
我々は,AlphaFoldタンパク質構造予測や複雑な数学問題における大規模推論モデルの比較など,ラベル付きデータに制限のある課題に対する本手法の利点を実証する。
関連論文リスト
- Using Imperfect Synthetic Data in Downstream Inference Tasks [50.40949503799331]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を改善することができる。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Statistical Guarantees in Synthetic Data through Conformal Adversarial Generation [1.3654846342364308]
既存の生成モデルは魅力的な合成サンプルを生成するが、基礎となるデータ分布との関係に関する厳密な統計的保証は欠如している。
本稿では,共形予測手法をGAN(Generative Adrial Networks)に組み込んだ新しいフレームワークを提案する。
このアプローチは、CGAN(Conformalized GAN)と呼ばれ、従来のGANの生成能力を維持しながら、キャリブレーション特性の強化を示す。
論文 参考訳(メタデータ) (2025-04-23T19:07:44Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。
具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。
また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文 参考訳(メタデータ) (2024-06-25T10:49:56Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Conformalised data synthesis [0.0]
コンフォーマル予測フレームワークに基づく高信頼特徴空間領域からデータを生成する合成アルゴリズムを提案する。
ユビキタスな現実世界の課題に対する我々のアプローチの汎用性を示すため、データセットは様々な困難な特徴に対して慎重に選択された。
すべての試験において、自信ある合成データによって拡張されたトレーニングセットは、少なくとも元のセットと同様に実行され、最大61パーセントのF1スコアでDeep Learningのパフォーマンスが大幅に向上した。
論文 参考訳(メタデータ) (2023-12-14T14:44:08Z) - Boosting Data Analytics With Synthetic Volume Expansion [3.568650932986342]
本稿では,合成データに対する統計的手法の有効性と,合成データのプライバシーリスクについて考察する。
この枠組みにおける重要な発見は、合成データに対する統計的手法の誤差率は、より多くの合成データを追加することで減少するが、最終的には上昇または安定化する可能性があることを明らかにする世代効果である。
論文 参考訳(メタデータ) (2023-10-27T01:57:27Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。