論文の概要: ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision
- arxiv url: http://arxiv.org/abs/2204.06863v4
- Date: Wed, 3 Jan 2024 20:52:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 18:07:27.675953
- Title: ULF: Unsupervised Labeling Function Correction using Cross-Validation
for Weak Supervision
- Title(参考訳): ULF: Cross-Validation を用いた非教師付きラベリング関数補正
- Authors: Anastasiia Sedova, Benjamin Roth
- Abstract要約: 弱監督(WS)は手動データラベリングの代案として費用対効果がある。
教師なしラベル付け関数修正のための新しいアルゴリズムULFを導入する。
ULFは、この割り当てを信頼性の高いクロスバリデーションサンプルに再推定することで、クラスへのLFの割り当てを洗練します。
- 参考スコア(独自算出の注目度): 5.566060402907773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A cost-effective alternative to manual data labeling is weak supervision
(WS), where data samples are automatically annotated using a predefined set of
labeling functions (LFs), rule-based mechanisms that generate artificial labels
for the associated classes. In this work, we investigate noise reduction
techniques for WS based on the principle of k-fold cross-validation. We
introduce a new algorithm ULF for Unsupervised Labeling Function correction,
which denoises WS data by leveraging models trained on all but some LFs to
identify and correct biases specific to the held-out LFs. Specifically, ULF
refines the allocation of LFs to classes by re-estimating this assignment on
highly reliable cross-validated samples. Evaluation on multiple datasets
confirms ULF's effectiveness in enhancing WS learning without the need for
manual labeling.
- Abstract(参考訳): 手動ラベリングの費用対効果は弱い監督(WS)であり、データサンプルは事前に定義されたラベリング関数のセット(LF)を使って自動的にアノテートされ、関連するクラスの人工ラベリングを生成するルールベースのメカニズムである。
そこで本研究では,k-foldクロスバリデーションの原理に基づくWSのノイズ低減手法について検討する。
非教師付きラベル関数補正のための新しいアルゴリズムULFを導入し、いくつかのLF以外のモデルで訓練されたモデルを利用してWSデータを識別し、保持されたLFに固有のバイアスを補正する。
特にULFは、高信頼性のクロスバリデーションサンプルにこの割り当てを再見積することで、クラスへのLFの割り当てを洗練します。
複数のデータセットの評価は、手動ラベリングを必要とせずにWS学習を向上するULFの有効性を確認する。
関連論文リスト
- Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Less is More: Pseudo-Label Filtering for Continual Test-Time Adaptation [13.486951040331899]
連続的テスト時間適応(CTTA)は、ソースデータにアクセスすることなく、テストフェーズ中に対象ドメインのシーケンスに事前訓練されたモデルを適用することを目的としている。
既存の方法は、すべてのサンプルに対して擬似ラベルを構築し、自己学習を通じてモデルを更新することに依存している。
擬似ラベルの品質を向上させるために擬似ラベルフィルタ(PLF)を提案する。
論文 参考訳(メタデータ) (2024-06-03T04:09:36Z) - Uncertainty-Aware Pseudo-Label Filtering for Source-Free Unsupervised Domain Adaptation [45.53185386883692]
Source-free unsupervised domain adapt (SFUDA) は、訓練済みのソースモデルを、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインで利用できるようにすることを目的としている。
本稿では,不確かさを意識したPseudo-label-filtering Adaptation (UPA) という手法を提案する。
論文 参考訳(メタデータ) (2024-03-17T16:19:40Z) - Parameter-tuning-free data entry error unlearning with adaptive
selective synaptic dampening [51.34904967046097]
本稿では,パラメータチューニングの必要性を排除した選択的シナプス減衰アンラーニング法の拡張を提案する。
本稿では,ResNet18とVision Transformerの未学習タスクにおける適応選択的シナプス減衰(ASSD)の性能を示す。
このアプローチの適用は、サプライチェーン管理などの産業環境において特に魅力的である。
論文 参考訳(メタデータ) (2024-02-06T14:04:31Z) - Leveraging Instance Features for Label Aggregation in Programmatic Weak
Supervision [75.1860418333995]
Programmatic Weak Supervision (PWS) は、トレーニングラベルを効率的に合成するための広く普及したパラダイムとして登場した。
PWSのコアコンポーネントはラベルモデルであり、複数のノイズ管理ソースの出力をラベル関数として集約することで、真のラベルを推論する。
既存の統計ラベルモデルは一般的にLFの出力のみに依存し、基礎となる生成過程をモデル化する際のインスタンスの特徴を無視している。
論文 参考訳(メタデータ) (2022-10-06T07:28:53Z) - Sparse Conditional Hidden Markov Model for Weakly Supervised Named
Entity Recognition [68.68300358332156]
雑音ラベリング機能を評価するために,スパース条件付き隠れマルコフモデル(Sparse-CHMM)を提案する。
Sparse-CHMMは、3段階のトレーニングパイプラインで教師なし学習によって最適化される。
5つの包括的なデータセットで平均F1スコアが3.01向上する。
論文 参考訳(メタデータ) (2022-05-27T20:47:30Z) - Label Augmentation with Reinforced Labeling for Weak Supervision [0.1529342790344802]
本稿では, 強化ラベリング (RL) と呼ばれる新しい手法を提案する。
RLはサンプル間の類似性に基づいてLFがカバーしていないケースに対してLFの出力を増大させる。
いくつかのドメインの実験(YouTubeコメントの分類、ワインの品質、天気予報)により、かなりの利益が得られた。
論文 参考訳(メタデータ) (2022-04-13T14:54:02Z) - Learning to Robustly Aggregate Labeling Functions for Semi-supervised
Data Programming [14.639568384768042]
教師付き機械学習における重要なボトルネックは、大量のラベル付きデータを必要とすることである。
本研究では,この2つの限界を解くために,LFに基づく再重み付けフレームワークである ouralgoを提案する。
本アルゴリズムは、LF誘導に使用されるラベル付きデータセットと、ラベルなしデータとの結合モデルを半教師付きで学習する。
論文 参考訳(メタデータ) (2021-09-23T14:42:46Z) - Cycle Self-Training for Domain Adaptation [85.14659717421533]
Cycle Self-Training (CST) は、ドメイン間の一般化に擬似ラベルを強制する、原則付き自己学習アルゴリズムである。
CSTは目標の真理を回復し、不変の機能学習とバニラ自己訓練の両方が失敗する。
実験結果から,標準的なUDAベンチマークでは,CSTは先行技術よりも大幅に改善されていることが示唆された。
論文 参考訳(メタデータ) (2021-03-05T10:04:25Z) - Self-Tuning for Data-Efficient Deep Learning [75.34320911480008]
セルフチューニングは、データ効率のよいディープラーニングを可能にする新しいアプローチである。
ラベル付きおよびラベルなしデータの探索と事前訓練されたモデルの転送を統一する。
SSLとTLの5つのタスクをシャープなマージンで上回ります。
論文 参考訳(メタデータ) (2021-02-25T14:56:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。