論文の概要: Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits
- arxiv url: http://arxiv.org/abs/2402.08209v1
- Date: Tue, 13 Feb 2024 04:17:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-14 16:29:35.716473
- Title: Thresholding Data Shapley for Data Cleansing Using Multi-Armed Bandits
- Title(参考訳): マルチアーマッドバンドを用いたデータクリーニングのための閾値データ共有
- Authors: Hiroyuki Namba, Shota Horiguchi, Masaki Hamamoto, Masashi Egi
- Abstract要約: データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。
Data Shapleyは、モデルパフォーマンスに対する各インスタンスのコントリビューションを評価するための、理論的に保証される一般的な方法である。
本稿では、閾値帯域幅アルゴリズムを用いて、低データのShapley値を持つインスタンスのサブセットを高速に識別する反復手法を提案する。
- 参考スコア(独自算出の注目度): 7.335578524351567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data cleansing aims to improve model performance by removing a set of harmful
instances from the training dataset. Data Shapley is a common theoretically
guaranteed method to evaluate the contribution of each instance to model
performance; however, it requires training on all subsets of the training data,
which is computationally expensive. In this paper, we propose an
iterativemethod to fast identify a subset of instances with low data Shapley
values by using the thresholding bandit algorithm. We provide a theoretical
guarantee that the proposed method can accurately select harmful instances if a
sufficiently large number of iterations is conducted. Empirical evaluation
using various models and datasets demonstrated that the proposed method
efficiently improved the computational speed while maintaining the model
performance.
- Abstract(参考訳): データクリーニングは、トレーニングデータセットから有害なインスタンスのセットを取り除き、モデルパフォーマンスを改善することを目的としている。
data shapleyは、各インスタンスのモデルパフォーマンスへの寄与を評価する一般的な理論的保証の方法であるが、計算コストが高いトレーニングデータのすべてのサブセットでのトレーニングが必要である。
本稿では,しきい値化バンディットアルゴリズムを用いて,シャープリー値の低いインスタンスのサブセットを高速に識別する反復手法を提案する。
提案手法は,十分な回数の反復を行うと,有害なインスタンスを正確に選択できることを理論的に保証する。
各種モデルとデータセットを用いた実験評価により,提案手法はモデル性能を維持しながら計算速度を効率的に向上することを示した。
関連論文リスト
- SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training [12.745160748376794]
本稿では,データセットの整合性を維持しつつ,データのサンプリング重量を高い共通度で選択的に削減するソフトデ重複手法を提案する。
このアプローチの中心にあるのは、重複の度合いを定量化する指標である"データ共通性"(data commonness)の概念です。
経験的分析により、この手法はトレーニング効率を著しく改善し、必要なトレーニングステップを少なくとも26%減らすことなく、同等のパープレキシティスコアを達成できることが示されている。
論文 参考訳(メタデータ) (2024-07-09T08:26:39Z) - Data Shapley in One Training Run [88.59484417202454]
Data Shapleyは、機械学習コンテキストにおけるデータのコントリビューションに寄与するための、原則化されたフレームワークを提供する。
既存のアプローチでは、計算集約的な異なるデータサブセット上の再学習モデルが必要である。
本稿では、対象とするデータモデルに対するスケーラブルなデータ属性を提供することにより、これらの制限に対処するIn-Run Data Shapleyを紹介する。
論文 参考訳(メタデータ) (2024-06-16T17:09:24Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Improved Distribution Matching for Dataset Condensation [91.55972945798531]
本稿では,分布マッチングに基づく新しいデータセット凝縮法を提案する。
提案手法は,計算資源の少ない従来の最適化指向手法よりも優れている。
論文 参考訳(メタデータ) (2023-07-19T04:07:33Z) - Data Selection for Fine-tuning Large Language Models Using Transferred
Shapley Values [10.53825744656208]
本稿では,Shapleyに基づくデータ評価の計算コストを削減するアルゴリズムTS-DShapleyを提案する。
ベンチマーク自然言語理解(NLU)データセット上での細調整BERTベースの言語モデルの選択データに対するTS-DShapleyの適用実験は、TS-DShapleyが既存のデータ選択方法より優れていることを示している。
論文 参考訳(メタデータ) (2023-06-16T20:07:38Z) - Evaluating Representations with Readout Model Switching [19.907607374144167]
本稿では,最小記述長(MDL)の原理を用いて評価指標を考案する。
我々は、読み出しモデルのためのハイブリッド離散および連続値モデル空間を設計し、それらの予測を組み合わせるために切替戦略を用いる。
提案手法はオンライン手法で効率的に計算でき,様々なアーキテクチャの事前学習された視覚エンコーダに対する結果を示す。
論文 参考訳(メタデータ) (2023-02-19T14:08:01Z) - Non-iterative optimization of pseudo-labeling thresholds for training
object detection models from multiple datasets [2.1485350418225244]
低コストデータセットの集合からオブジェクト検出を学習するために、擬似ラベル閾値を最適化する非定型的手法を提案する。
提案手法はCOCOおよびVOCデータセット上の格子探索に匹敵するmAPを実現することを実験的に実証した。
論文 参考訳(メタデータ) (2022-10-19T00:31:34Z) - Efficient Learning of Accurate Surrogates for Simulations of Complex Systems [0.0]
サンプリング駆動サンプリングによって強化されたオンライン学習手法を提案する。
モデル応答面上のすべての旋回点がトレーニングデータに含まれることを保証する。
本手法を核物質のシミュレーションに適用し,高精度なサロゲートを確実に自動生成できることを実証する。
論文 参考訳(メタデータ) (2022-07-11T20:51:11Z) - Distributed Dynamic Safe Screening Algorithms for Sparse Regularization [73.85961005970222]
本稿では,分散動的安全スクリーニング(DDSS)手法を提案し,共有メモリアーキテクチャと分散メモリアーキテクチャにそれぞれ適用する。
提案手法は, 線形収束率を低次複雑度で達成し, 有限個の繰り返しにおいてほとんどすべての不活性な特徴をほぼ確実に除去できることを示す。
論文 参考訳(メタデータ) (2022-04-23T02:45:55Z) - Learning to be a Statistician: Learned Estimator for Number of Distinct
Values [54.629042119819744]
列内の異なる値の数(NDV)を推定することは、データベースシステムにおける多くのタスクに有用である。
本研究では、ランダム(オンライン/オフライン)サンプルから正確なNDV推定を導出する方法に焦点を当てる。
教師付き学習フレームワークにおいて,NDV推定タスクを定式化し,モデルを推定対象として学習することを提案する。
論文 参考訳(メタデータ) (2022-02-06T15:42:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。