論文の概要: Conformalised data synthesis with statistical quality guarantees
- arxiv url: http://arxiv.org/abs/2312.08999v1
- Date: Thu, 14 Dec 2023 14:44:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-15 21:37:31.072065
- Title: Conformalised data synthesis with statistical quality guarantees
- Title(参考訳): 統計的品質保証による共形データ合成
- Authors: Julia A. Meister, Khuong An Nguyen
- Abstract要約: データ合成は、データハングリーモデルの需要に対応するための有望な技術である。
しかし、「合成器」モデルの出力の品質を確実に評価することは、オープンな研究課題である。
我々は統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the proliferation of ever more complicated Deep Learning architectures,
data synthesis is a highly promising technique to address the demand of
data-hungry models. However, reliably assessing the quality of a 'synthesiser'
model's output is an open research question with significant associated risks
for high-stake domains. To address this challenge, we have designed a unique
confident data synthesis algorithm that introduces statistical confidence
guarantees through a novel extension of the Conformal Prediction framework. We
support our proposed algorithm with theoretical proofs and an extensive
empirical evaluation of five benchmark datasets. To show our approach's
versatility on ubiquitous real-world challenges, the datasets were carefully
selected for their variety of difficult characteristics: low sample count,
class imbalance and non-separability, and privacy-sensitive data. In all
trials, training sets extended with our confident synthesised data performed at
least as well as the original, and frequently significantly improved Deep
Learning performance by up to +65% F1-score.
- Abstract(参考訳): より複雑なディープラーニングアーキテクチャの普及に伴い、データ合成はデータハングリーモデルの需要に対処するための非常に有望な技術である。
しかし、「合成器」モデルの出力の質を確実に評価することは、高リスク領域に対する重大なリスクを伴うオープンな研究課題である。
この課題に対処するために,コンフォーマル予測フレームワークの新たな拡張により,統計的信頼性を保証するユニークな自信データ合成アルゴリズムを設計した。
提案アルゴリズムは理論的証明と5つのベンチマークデータセットの広範な実験的評価により支援する。
ユビキタスな実世界の課題に対する我々のアプローチの汎用性を示すために、データセットは、サンプル数、クラス不均衡、非分離性、プライバシに敏感なデータといった、さまざまな難しい特性のために慎重に選択されました。
すべての試験では、自信ある合成データによってトレーニングセットが拡張され、少なくともオリジナルのデータと同様に実行され、Deep Learningのパフォーマンスが最大で65%向上しました。
関連論文リスト
- Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Statistical properties and privacy guarantees of an original
distance-based fully synthetic data generation method [0.0]
この研究は、多段階のフレームワークを用いて、公開リリース可能な合成データを生成する技術的実現可能性を示す。
新たな多段階合成データ生成フレームワークを用いて生成したデータの質を評価することで,Open-CESPイニシアチブの技術的,概念的健全性を実証した。
論文 参考訳(メタデータ) (2023-10-10T12:29:57Z) - Perturbation-Assisted Sample Synthesis: A Novel Approach for Uncertainty
Quantification [3.175239447683357]
本稿では、摂動支援サンプル合成(PASS)法により生成された合成データを利用した新しい摂動支援推論(PAI)フレームワークを提案する。
このフレームワークは、複雑なデータシナリオ、特に非構造化データの不確実性定量化に焦点を当てている。
我々は、画像合成、感情語分析、マルチモーダル推論、予測区間の構築など、様々な分野に適用することで、複雑なデータ駆動タスクにおける不確実性定量化を推し進める上で、PAIの有効性を実証する。
論文 参考訳(メタデータ) (2023-05-30T01:01:36Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z) - Holdout-Based Fidelity and Privacy Assessment of Mixed-Type Synthetic
Data [0.0]
aiベースのデータ合成はここ数年で急速に進歩しており、プライバシを尊重するデータ共有を可能にするという約束がますます認識されている。
我々は,合成データソリューションの信頼性とプライバシリスクを定量化するための,ホールドアウトに基づく実証的評価フレームワークを紹介し,実証する。
論文 参考訳(メタデータ) (2021-04-01T17:30:23Z) - Foundations of Bayesian Learning from Synthetic Data [1.6249267147413522]
我々はベイズパラダイムを用いて、合成データから学習する際のモデルパラメータの更新を特徴付ける。
ベイジアン・アップデートの最近の成果は、決定理論に基づく新しい、堅牢な合成学習のアプローチを支持している。
論文 参考訳(メタデータ) (2020-11-16T21:49:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。