論文の概要: WeShap: Weak Supervision Source Evaluation with Shapley Values
- arxiv url: http://arxiv.org/abs/2406.11010v1
- Date: Sun, 16 Jun 2024 17:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-18 19:32:56.957221
- Title: WeShap: Weak Supervision Source Evaluation with Shapley Values
- Title(参考訳): WeShap: シェープな価値を備えた弱スーパービジョンのソース評価
- Authors: Naiqing Guan, Nick Koudas,
- Abstract要約: 弱監督源の平均貢献度を定量化する評価指標としてWeShap値を導入する。
動的プログラミングを用いて,WeShap値の効率的な計算を行う。
その結果,下流モデルの精度は4.8ポイント向上した。
- 参考スコア(独自算出の注目度): 13.713353761836625
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Efficient data annotation stands as a significant bottleneck in training contemporary machine learning models. The Programmatic Weak Supervision (PWS) pipeline presents a solution by utilizing multiple weak supervision sources to automatically label data, thereby expediting the annotation process. Given the varied contributions of these weak supervision sources to the accuracy of PWS, it is imperative to employ a robust and efficient metric for their evaluation. This is crucial not only for understanding the behavior and performance of the PWS pipeline but also for facilitating corrective measures. In our study, we introduce WeShap values as an evaluation metric, which quantifies the average contribution of weak supervision sources within a proxy PWS pipeline, leveraging the theoretical underpinnings of Shapley values. We demonstrate efficient computation of WeShap values using dynamic programming, achieving quadratic computational complexity relative to the number of weak supervision sources. Our experiments demonstrate the versatility of WeShap values across various applications, including the identification of beneficial or detrimental labeling functions, refinement of the PWS pipeline, and rectification of mislabeled data. Furthermore, WeShap values aid in comprehending the behavior of the PWS pipeline and scrutinizing specific instances of mislabeled data. Although initially derived from a specific proxy PWS pipeline, we empirically demonstrate the generalizability of WeShap values to other PWS pipeline configurations. Our findings indicate a noteworthy average improvement of 4.8 points in downstream model accuracy through the revision of the PWS pipeline compared to previous state-of-the-art methods, underscoring the efficacy of WeShap values in enhancing data quality for training machine learning models.
- Abstract(参考訳): 効率的なデータアノテーションは、現代の機械学習モデルのトレーニングにおいて重要なボトルネックとなっている。
Programmatic Weak Supervision (PWS)パイプラインは、複数の弱い監督ソースを使用して自動的にデータをラベル付けすることで、アノテーションプロセスの迅速化によるソリューションを提供する。
これらの弱監督源のPWSの精度に対する様々な貢献を考えると、その評価に堅牢で効率的な計量を用いることが不可欠である。
これは、PWSパイプラインの動作とパフォーマンスを理解するだけでなく、修正措置の促進にも不可欠です。
本研究では,WeShap値を評価指標として導入し,シャプリー値の理論的基盤を生かして,プロキシPWSパイプライン内の弱監督源の寄与度を定量化する。
動的プログラミングを用いてWeShap値の効率的な計算を行い、弱監督源の数に対して2次計算複雑性を実現する。
本実験は,有益または有害なラベル付け関数の同定,PWSパイプラインの改良,誤ラベルデータの修正など,WeShap値の汎用性を示す。
さらに、WeShapの値は、PWSパイプラインの振る舞いを理解し、ラベルのずれたデータの特定の事例を精査するのに役立ちます。
当初は特定のプロキシPWSパイプラインから派生したものの,WeShap値の他のPWSパイプライン構成への一般化性を実証的に実証した。
機械学習モデルのトレーニングにおけるデータ品質向上におけるWeShap値の有効性について,従来の最先端手法と比較して,PWSパイプラインの改訂により,下流モデルの精度が4.8ポイント向上したことを示す。
関連論文リスト
- A Bayesian Approach to Data Point Selection [24.98069363998565]
データポイントの選択(DPS)は、ディープラーニングにおいて重要なトピックになりつつある。
既存のDPSへのアプローチは、主にバイレベル最適化(BLO)の定式化に基づいている。
DPSに対する新しいベイズ的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-06T09:04:13Z) - Explanatory Model Monitoring to Understand the Effects of Feature Shifts on Performance [61.06245197347139]
そこで本研究では,機能シフトによるブラックボックスモデルの振る舞いを説明する新しい手法を提案する。
本稿では,最適輸送と共有値の概念を組み合わせた提案手法について,説明的性能推定として紹介する。
論文 参考訳(メタデータ) (2024-08-24T18:28:19Z) - Not All Data Matters: An End-to-End Adaptive Dataset Pruning Framework
for Enhancing Model Performance and Efficiency [9.460023981858319]
本稿では,AdaPruner と呼ばれる適応型 DAtaset PRUNing フレームワークを提案する。
AdaPrunerは、冗長なサンプルを期待プルーニング比率に反復的にプルークする。
トレーニングデータの最大10~30%をプルーニングしても、モデルパフォーマンスを著しく向上させることができる。
論文 参考訳(メタデータ) (2023-12-09T16:01:21Z) - Fast Shapley Value Estimation: A Unified Approach [71.92014859992263]
冗長な手法を排除し、単純で効率的なシェープリー推定器SimSHAPを提案する。
既存手法の解析において、推定器は特徴部分集合からランダムに要約された値の線形変換として統一可能であることを観察する。
実験により,SimSHAPの有効性が検証され,精度の高いShapley値の計算が大幅に高速化された。
論文 参考訳(メタデータ) (2023-11-02T06:09:24Z) - Rethinking Evaluation Protocols of Visual Representations Learned via
Self-supervised Learning [1.0499611180329804]
自己教師型学習(SSL)は、自己教師型学習(SSL)を通して学習した視覚的表現の質を評価するために用いられる。
既存のSSLメソッドは、これらの評価プロトコルの下で優れたパフォーマンスを示している。
我々は、最先端のSSL方式で広範な実験を行うことにより、性能感度の原因を解明しようとする。
論文 参考訳(メタデータ) (2023-04-07T03:03:19Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Understanding Programmatic Weak Supervision via Source-aware Influence
Function [76.74549130841383]
Programmatic Weak Supervision (PWS)は、複数の弱い監督ソースのソース投票を確率的トレーニングラベルに集約する。
エンドモデルのトレーニング目標を分解し、各(データ、ソース、クラス)に関連する影響を計算するために、インフルエンス関数(IF)を構築します。
これらのプリミティブな影響スコアは、ソース投票、監督ソース、トレーニングデータなど、個々のコンポーネントPWSの影響を推定するために使用することができる。
論文 参考訳(メタデータ) (2022-05-25T15:57:24Z) - Data Debugging with Shapley Importance over End-to-End Machine Learning
Pipelines [27.461398584509755]
DataScopeは、エンドツーエンドの機械学習パイプライン上でトレーニング例のShapley値を効率的に計算する最初のシステムである。
以上の結果から,DataScopeは最先端のモンテカルロ法よりも最大4桁高速であることがわかった。
論文 参考訳(メタデータ) (2022-04-23T19:29:23Z) - AI Total: Analyzing Security ML Models with Imperfect Data in Production [2.629585075202626]
新しい機械学習モデルの開発は通常、手動でキュレートされたデータセット上で行われる。
本研究では,ユーザによるヘッドライン性能数値の収集を可能にするWebベースの可視化システムを開発した。
また,何か問題が発生した場合に,問題の根本原因を即座に観察することも可能だ。
論文 参考訳(メタデータ) (2021-10-13T20:56:05Z) - WSSOD: A New Pipeline for Weakly- and Semi-Supervised Object Detection [75.80075054706079]
弱機能および半教師付きオブジェクト検出フレームワーク(WSSOD)を提案する。
エージェント検出器は、まず関節データセット上でトレーニングされ、弱注釈画像上で擬似境界ボックスを予測するために使用される。
提案フレームワークはPASCAL-VOC と MSCOCO のベンチマークで顕著な性能を示し,完全教師付き環境で得られたものと同等の性能を達成している。
論文 参考訳(メタデータ) (2021-05-21T11:58:50Z) - How Training Data Impacts Performance in Learning-based Control [67.7875109298865]
本稿では,トレーニングデータの密度と制御性能の関係を考察する。
データセットの品質尺度を定式化し、$rho$-gap と呼ぶ。
フィードバック線形化制御法に$rho$-gapを適用する方法を示す。
論文 参考訳(メタデータ) (2020-05-25T12:13:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。