論文の概要: Filtering with Confidence: When Data Augmentation Meets Conformal Prediction
- arxiv url: http://arxiv.org/abs/2509.21479v1
- Date: Thu, 25 Sep 2025 19:42:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:53.95172
- Title: Filtering with Confidence: When Data Augmentation Meets Conformal Prediction
- Title(参考訳): 信頼性のあるフィルタリング: データ拡張が整合予測に遭遇する時
- Authors: Zixuan Wu, So Won Jeong, Yating Liu, Yeo Jin Jung, Claire Donnat,
- Abstract要約: 本稿では,合成データ拡張のための基本データフィルタリングフレームワークを提案する。
F1スコアの最大40%の一貫性のあるパフォーマンス向上を示す。
- 参考スコア(独自算出の注目度): 10.431187957711206
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With promising empirical performance across a wide range of applications, synthetic data augmentation appears a viable solution to data scarcity and the demands of increasingly data-intensive models. Its effectiveness lies in expanding the training set in a way that reduces estimator variance while introducing only minimal bias. Controlling this bias is therefore critical: effective data augmentation should generate diverse samples from the same underlying distribution as the training set, with minimal shifts. In this paper, we propose conformal data augmentation, a principled data filtering framework that leverages the power of conformal prediction to produce diverse synthetic data while filtering out poor-quality generations with provable risk control. Our method is simple to implement, requires no access to internal model logits, nor large-scale model retraining. We demonstrate the effectiveness of our approach across multiple tasks, including topic prediction, sentiment analysis, image classification, and fraud detection, showing consistent performance improvements of up to 40% in F1 score over unaugmented baselines, and 4% over other filtered augmentation baselines.
- Abstract(参考訳): 幅広いアプリケーションにわたる有望な経験的パフォーマンスによって、データ不足とデータ集約モデルの要求に対する合成データ拡張は、実行可能なソリューションのように見える。
その効果は、最小限のバイアスのみを導入しながら、推定値のばらつきを減らす方法でトレーニングセットを拡張することである。
効果的なデータ拡張は、トレーニングセットと同じ基礎となる分布から、最小限のシフトで、多様なサンプルを生成するべきである。
本稿では,多種多様な合成データを生成するために共形予測のパワーを生かしたデータフィルタリングフレームワークである共形データ拡張手法を提案する。
本手法は実装が簡単で,内部モデルロジットへのアクセスも大規模モデル再訓練も不要である。
トピック予測,感情分析,画像分類,不正検出など,複数のタスクにまたがるアプローチの有効性を実証し,改良されていないベースラインよりもF1スコアが最大40%向上し,他の拡張ベースラインよりも4%向上したことを示す。
関連論文リスト
- Towards High Data Efficiency in Reinforcement Learning with Verifiable Reward [54.708851958671794]
オフラインとオンラインの両方のデータ選択のための最適化戦略を組み合わせた,データ効率のよいポリシ最適化パイプラインを提案する。
オフラインフェーズでは、多様性、影響、適切な難易度に基づいて、トレーニングサンプルの高品質なサブセットをキュレートする。
オンラインRLVRトレーニングにおいて、探索可能性の低いサンプルを動的にフィルタリングするサンプルレベルの探索性指標を導入する。
論文 参考訳(メタデータ) (2025-09-01T10:04:20Z) - Federated Online Learning for Heterogeneous Multisource Streaming Data [0.0]
フェデレートラーニングは、プライバシの懸念の下で分散マルチソースデータ分析に不可欠なパラダイムとして登場した。
本稿では,分散マルチソースストリーミングデータ解析のためのFOL手法を提案する。
論文 参考訳(メタデータ) (2025-08-08T19:08:53Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - LEAD: Iterative Data Selection for Efficient LLM Instruction Tuning [22.242445543184264]
我々は,標準トレーニングループ内でサンプルユーティリティを完全に正確に推定する,効率的な反復的データ選択フレームワークであるLEADを提案する。
実験の結果、LEADは最先端の手法を著しく上回り、平均モデル性能は6.1%-10.8%向上し、トレーニングデータの2.5%しか使用せず、全体のトレーニング時間を5-10倍短縮した。
論文 参考訳(メタデータ) (2025-05-12T10:57:51Z) - TarDiff: Target-Oriented Diffusion Guidance for Synthetic Electronic Health Record Time Series Generation [26.116599951658454]
時系列生成は臨床機械学習モデルの進歩に不可欠である。
観測データのみに対する忠実性は、モデル性能の向上を保証するものではない、と我々は主張する。
タスク固有のインフルエンスガイダンスを統合した,新たなターゲット指向拡散フレームワークであるTarDiffを提案する。
論文 参考訳(メタデータ) (2025-04-24T14:36:10Z) - A Conformal Approach to Feature-based Newsvendor under Model Misspecification [2.801095519296785]
共形予測にインスパイアされたモデルフリーで分散フリーなフレームワークを提案する。
ワシントンD.C.のCapital Bikeshareプログラムのシミュレーションデータと実世界のデータセットを用いて,我々のフレームワークを検証する。
論文 参考訳(メタデータ) (2024-12-17T18:34:43Z) - ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。
我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文 参考訳(メタデータ) (2024-09-10T07:34:19Z) - Negative Data Augmentation [127.28042046152954]
負のデータ拡張サンプルは、データ分散のサポートに関する情報を提供することを示す。
我々は、NDAを識別器の合成データの追加源として利用する新しいGAN訓練目標を提案する。
実験により,本手法で訓練したモデルでは,異常検出能力の向上とともに条件付き・条件付き画像生成の改善を実現している。
論文 参考訳(メタデータ) (2021-02-09T20:28:35Z) - Adversarial Filters of Dataset Biases [96.090959788952]
大規模なニューラルモデルでは、言語とビジョンベンチマークで人間レベルのパフォーマンスが実証されている。
それらの性能は、敵対的またはアウト・オブ・ディストリビューションのサンプルで著しく低下する。
このようなデータセットバイアスを逆フィルタするAFLiteを提案する。
論文 参考訳(メタデータ) (2020-02-10T21:59:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。