論文の概要: Regularized Data Programming with Bayesian Priors
- arxiv url: http://arxiv.org/abs/2210.08677v1
- Date: Mon, 17 Oct 2022 00:44:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 20:33:13.035816
- Title: Regularized Data Programming with Bayesian Priors
- Title(参考訳): bayesian priorsを用いた正規化データプログラミング
- Authors: Jacqueline R. M. A. Maasch, Hao Zhang, Qian Yang, Fei Wang, Volodymyr
Kuleshov
- Abstract要約: 本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。
その結果, 正規化DPは, 最大得票率と多数票率に対して性能を向上し, 高い解釈可能性を示し, 低いデータ体制下での性能を高めることが示唆された。
- 参考スコア(独自算出の注目度): 28.809897740958956
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The cost of manual data labeling can be a significant obstacle in supervised
learning. Data programming (DP) offers a weakly supervised solution for
training dataset creation, wherein the outputs of user-defined programmatic
labeling functions (LFs) are reconciled through unsupervised learning. However,
DP can fail to outperform an unweighted majority vote in some scenarios,
including low-data contexts. This work introduces a Bayesian extension of
classical DP that mitigates failures of unsupervised learning by augmenting the
DP objective with regularization terms. Regularized learning is achieved
through maximum a posteriori estimation in the Bayesian model. Results suggest
that regularized DP improves performance relative to maximum likelihood and
majority voting, confers greater interpretability, and bolsters performance in
low-data regimes.
- Abstract(参考訳): 手動データラベリングのコストは教師あり学習において大きな障害となる。
データプログラミング(dp)は、ユーザー定義プログラムラベリング関数(lfs)の出力を教師なし学習によって調整する、データセット作成をトレーニングするための弱い教師付きソリューションを提供する。
しかし、DPは、低データのコンテキストを含むいくつかのシナリオで、過度な多数決を上回りません。
本研究は,DP目標を正規化項で拡張することにより,教師なし学習の失敗を緩和する古典DPのベイズ拡張を導入する。
正規化学習はベイズモデルにおける最大後方推定によって達成される。
その結果, 正則化dpは, 最大確率と多数決に対する性能向上, 解釈可能性の向上, 低データ環境の性能向上に寄与することが示唆された。
関連論文リスト
- Differentially Private Zeroth-Order Methods for Scalable Large Language
Model Finetuning [0.0]
事前訓練されたLLMの差分プライベート(DP)微調整は、タスク固有のデータセットのプライバシ保護に注目が集まっている。
DP-SGDのスケーラビリティを限界まで押し上げたにもかかわらず、DP-SGDベースの微調整法は残念ながらSGD固有の非効率性によって制限されている。
論文 参考訳(メタデータ) (2024-02-12T17:24:15Z) - Selectivity Drives Productivity: Efficient Dataset Pruning for Enhanced
Transfer Learning [66.20311762506702]
データセットプルーニング(DP)は、データ効率を改善する効果的な方法として登場した。
本稿では,ラベルマッピングと特徴マッピングという2つの新しいDP手法を提案する。
ダウンストリーム性能を犠牲にすることなく、ソースデータクラスを最大40%まで刈り取ることができることを示す。
論文 参考訳(メタデータ) (2023-10-13T00:07:49Z) - Progressive Feature Adjustment for Semi-supervised Learning from
Pretrained Models [39.42802115580677]
半教師付き学習(SSL)はラベル付きデータとラベルなしデータの両方を利用して予測モデルを構築することができる。
近年の文献では、事前訓練されたモデルで最先端のSSLを適用しても、トレーニングデータの潜在能力を最大限に発揮できないことが示唆されている。
本稿では,ラベルの誤りに敏感でない特徴抽出器を更新するために,非ラベルデータから擬似ラベルを使用することを提案する。
論文 参考訳(メタデータ) (2023-09-09T01:57:14Z) - MAPS: A Noise-Robust Progressive Learning Approach for Source-Free
Domain Adaptive Keypoint Detection [76.97324120775475]
クロスドメインキーポイント検出方法は、常に適応中にソースデータにアクセスする必要がある。
本稿では、ターゲット領域に十分に訓練されたソースモデルのみを提供する、ソースフリーなドメイン適応キーポイント検出について考察する。
論文 参考訳(メタデータ) (2023-02-09T12:06:08Z) - Towards Practical Few-shot Federated NLP [7.308810227772172]
下流タスクのための微調整済みの事前訓練モデルは、しばしばかなりの量のラベル付きプライベートデータを必要とする。
AUG-FedPromptは,データ拡張のために,豊富なラベルのないデータを活用するプロンプトベースの学習システムである。
実験の結果,AUG-FedPromptはラベル付きデータに制限のあるフルセットの微調整と同等に動作できることが示唆された。
論文 参考訳(メタデータ) (2022-12-01T00:36:48Z) - Controller-Guided Partial Label Consistency Regularization with
Unlabeled Data [49.24911720809604]
本稿では,ラベルレベルと表現レベルの両方において,コントローラ誘導整合正則化を提案する。
信頼度閾値を動的に調整し、整合正則化に参加する各クラスのサンプル数が大まかに等しいようにし、クラス不均衡の問題を緩和する。
論文 参考訳(メタデータ) (2022-10-20T12:15:13Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - In Defense of Pseudo-Labeling: An Uncertainty-Aware Pseudo-label
Selection Framework for Semi-Supervised Learning [53.1047775185362]
Pseudo-labeling (PL) は一般的な SSL アプローチで、この制約はありませんが、当初の処方では比較的不十分です。
PLは不整合モデルからの誤った高い信頼度予測により性能が低下していると論じる。
そこで本研究では,疑似ラベリング精度を向上させるための不確実性認識型擬似ラベル選択(ups)フレームワークを提案する。
論文 参考訳(メタデータ) (2021-01-15T23:29:57Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z) - Out-distribution aware Self-training in an Open World Setting [62.19882458285749]
オープンワールド環境ではラベルのないデータを活用して予測性能をさらに向上します。
注意深いサンプル選択戦略を含む,自己学習を意識したアウト・ディストリビューションを導入する。
当社の分類器は、設計外分布を意識しており、タスク関連の入力と無関係な入力を区別できます。
論文 参考訳(メタデータ) (2020-12-21T12:25:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。