論文の概要: LARP: Learner-Agnostic Robust Data Prefiltering
- arxiv url: http://arxiv.org/abs/2506.20573v1
- Date: Wed, 25 Jun 2025 16:07:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-26 21:00:42.834453
- Title: LARP: Learner-Agnostic Robust Data Prefiltering
- Title(参考訳): LARP:Learner-Agnostic Robust Data Prefiltering
- Authors: Kristian Minchev, Dimitar Iliev Dimitrov, Nikola Konstantinov,
- Abstract要約: 我々はLearner-Agnostic Robust Data Prefiltering (LARP)の問題を定式化する。
理論的には, LARPを学習者の不均一なセットで実行すると, モデル性能が低下することが示唆された。
結果の効用損失とその問題パラメータへの依存性について検討する。
- 参考スコア(独自算出の注目度): 5.530212768657544
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The widespread availability of large public datasets is a key factor behind the recent successes of statistical inference and machine learning methods. However, these datasets often contain some low-quality or contaminated data, to which many learning procedures are sensitive. Therefore, the question of whether and how public datasets should be prefiltered to facilitate accurate downstream learning arises. On a technical level this requires the construction of principled data prefiltering methods which are learner-agnostic robust, in the sense of provably protecting a set of pre-specified downstream learners from corrupted data. In this work, we formalize the problem of Learner-Agnostic Robust data Prefiltering (LARP), which aims at finding prefiltering procedures that minimize a worst-case loss over a pre-specified set of learners. We first instantiate our framework in the context of scalar mean estimation with Huber estimators under the Huber data contamination model. We provide a hardness result on a specific problem instance and analyze several natural prefiltering procedures. Our theoretical results indicate that performing LARP on a heterogeneous set of learners leads to some loss in model performance compared to the alternative of prefiltering data for each learner/use-case individually. We explore the resulting utility loss and its dependence on the problem parameters via extensive experiments on real-world image and tabular data, observing statistically significant reduction in utility. Finally, we model the trade-off between the utility drop and the cost of repeated (learner-specific) prefiltering within a game-theoretic framework and showcase benefits of LARP for large datasets.
- Abstract(参考訳): 大規模な公開データセットの普及は、最近の統計的推論と機械学習メソッドの成功の背後にある重要な要因である。
しかしながら、これらのデータセットは、低品質または汚染されたデータを含むことが多く、多くの学習手順が敏感である。
したがって、下流での正確な学習を容易にするために、パブリックデータセットを事前フィルタリングするかどうかという問題が発生する。
技術的レベルでは、事前に特定された下流学習者のセットを破損したデータから確実に保護するために、学習者に依存しない堅牢な原則付きデータ事前フィルタリング手法を構築する必要がある。
本研究では,事前指定した学習者に対する最悪の損失を最小限に抑える事前フィルタリング手順の探索を目的としたLARP(Learner-Agnostic Robust Data Prefiltering)の問題を定式化する。
まず、ハマーデータ汚染モデルに基づくハマー推定器を用いて、スカラー平均推定の文脈でフレームワークをインスタンス化する。
特定の問題インスタンス上での難易度結果を提供し、いくつかの自然な事前フィルタリング手順を解析する。
理論的には,学習者の不均一な集合上でLARPを実行すると,学習者毎の事前フィルタリングデータに代えてモデル性能が低下することが示唆された。
実世界の画像および表データに関する広範な実験を通じて、実用性損失とその問題パラメータへの依存性について検討し、統計的に有意な実用性低下を観測する。
最後に,ユーティリティドロップとゲーム理論フレームワーク内での繰り返しプリフィルタのコストのトレードオフをモデル化し,大規模データセットに対するLARPのメリットを示す。
関連論文リスト
- DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。
我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。
具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文 参考訳(メタデータ) (2025-02-22T08:53:39Z) - On the Influence of Data Resampling for Deep Learning-Based Log Anomaly Detection: Insights and Recommendations [10.931620604044486]
本研究は,多様なデータ再サンプリング手法が既存のADアプローチに与える影響を詳細に分析する。
クラス不均衡のレベルが異なる4つのデータセットにまたがるこれらのADアプローチの性能を評価する。
正常なデータと異常なデータの最適な再サンプリング率を利用する際のデータ再サンプリング手法の有効性を評価する。
論文 参考訳(メタデータ) (2024-05-06T14:01:05Z) - Negative Preference Optimization: From Catastrophic Collapse to Effective Unlearning [28.059563581973432]
LLM(Large Language Models)は、事前トレーニング中に機密性のある、プライベートな、あるいは著作権のあるデータを持つことが多い。
LLMは、事前学習されたモデルから望ましくないデータの影響を取り除くことを目的としている。
我々は、ターゲットデータセットを効率的に解放できる単純なアライメントにインスパイアされた方法として、NPO(Negative Preference Optimization)を提案する。
論文 参考訳(メタデータ) (2024-04-08T21:05:42Z) - A Pretrainer's Guide to Training Data: Measuring the Effects of Data
Age, Domain Coverage, Quality, & Toxicity [84.6421260559093]
この研究は、テキスト事前学習に関する文書化されていない直観を検証、定量化、公開するための最大の実験である。
以上の結果から,トレーニングデータをフィルタリングする一大ソリューションが存在しないことが示唆された。
論文 参考訳(メタデータ) (2023-05-22T15:57:53Z) - Self-Supervised Learning for Data Scarcity in a Fatigue Damage
Prognostic Problem [0.0]
自己監督学習(Self-Supervised Learning)は、教師なし学習アプローチのサブカテゴリである。
本稿では,未ラベルセンサデータを用いた自己学習型DLモデルの有効性について検討する。
その結果, 自己教師付き事前学習モデルでは, 下流RUL予測タスクにおいて, 非事前学習モデルよりも大幅に優れていることがわかった。
論文 参考訳(メタデータ) (2023-01-20T06:45:32Z) - Risk Minimization from Adaptively Collected Data: Guarantees for
Supervised and Policy Learning [57.88785630755165]
経験的リスク最小化(Empirical Risk Minimization, ERM)は、機械学習のワークホースであるが、適応的に収集されたデータを使用すると、そのモデルに依存しない保証が失敗する可能性がある。
本研究では,仮説クラス上での損失関数の平均値を最小限に抑えるため,適応的に収集したデータを用いた一般的な重み付きERMアルゴリズムについて検討する。
政策学習では、探索がゼロになるたびに既存の文献のオープンギャップを埋める率-最適後悔保証を提供する。
論文 参考訳(メタデータ) (2021-06-03T09:50:13Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。