論文の概要: Regularized Data Programming with Automated Bayesian Prior Selection
- arxiv url: http://arxiv.org/abs/2210.08677v2
- Date: Wed, 25 Oct 2023 15:13:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-28 06:26:03.611156
- Title: Regularized Data Programming with Automated Bayesian Prior Selection
- Title(参考訳): ベイズ自動事前選択による正規化データプログラミング
- Authors: Jacqueline R. M. A. Maasch, Hao Zhang, Qian Yang, Fei Wang, Volodymyr
Kuleshov
- Abstract要約: 本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。
その結果, 正規化DPは, 最大得票率と多数票率に対して性能を向上し, 高い解釈可能性を示し, 低いデータ体制下での性能を高めることが示唆された。
- 参考スコア(独自算出の注目度): 32.27188290328545
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The cost of manual data labeling can be a significant obstacle in supervised
learning. Data programming (DP) offers a weakly supervised solution for
training dataset creation, wherein the outputs of user-defined programmatic
labeling functions (LFs) are reconciled through unsupervised learning. However,
DP can fail to outperform an unweighted majority vote in some scenarios,
including low-data contexts. This work introduces a Bayesian extension of
classical DP that mitigates failures of unsupervised learning by augmenting the
DP objective with regularization terms. Regularized learning is achieved
through maximum a posteriori estimation with informative priors. Majority vote
is proposed as a proxy signal for automated prior parameter selection. Results
suggest that regularized DP improves performance relative to maximum likelihood
and majority voting, confers greater interpretability, and bolsters performance
in low-data regimes.
- Abstract(参考訳): 手動データラベリングのコストは教師あり学習において大きな障害となる。
データプログラミング(dp)は、ユーザー定義プログラムラベリング関数(lfs)の出力を教師なし学習によって調整する、データセット作成をトレーニングするための弱い教師付きソリューションを提供する。
しかし、DPは、低データのコンテキストを含むいくつかのシナリオで、過度な多数決を上回りません。
本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。
正規化学習は、情報優先を伴う最大後進推定によって達成される。
自動事前パラメータ選択のための代用信号として、多数決が提案されている。
その結果, 正則化dpは, 最大確率と多数決に対する性能向上, 解釈可能性の向上, 低データ環境の性能向上に寄与することが示唆された。
関連論文リスト
- Pseudo-Probability Unlearning: Towards Efficient and Privacy-Preserving Machine Unlearning [59.29849532966454]
本稿では,PseudoProbability Unlearning (PPU)を提案する。
提案手法は,最先端の手法に比べて20%以上の誤りを忘れる改善を実現している。
論文 参考訳(メタデータ) (2024-11-04T21:27:06Z) - Aligning CodeLLMs with Direct Preference Optimization [44.34483822102872]
この研究はまず、一般的に使われているPPOアルゴリズムがCodeLLMのアライメントに最適であることを示す。
好みデータペアのみに基づいて、DPOはモデルランクデータを自動でレンダリングすることができ、きめ細かい報酬パターンを生み出す。
本研究では,MBPPやHumanEvalなどのベンチマークにおいて,既存のCodeLLMの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2024-10-24T09:36:13Z) - Fine-tuning can Help Detect Pretraining Data from Large Language Models [7.7209640786782385]
現在のメソッドでは、PerplexityやMin-k%といったスコアリング関数を設計することで、メンバと非メンバを区別している。
本研究では,FSD(Fun-Tuned Score Deviation)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-10-09T15:36:42Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。