論文の概要: Weaker Than You Think: A Critical Look at Weakly Supervised Learning
- arxiv url: http://arxiv.org/abs/2305.17442v2
- Date: Fri, 7 Jul 2023 13:56:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-10 15:16:00.384549
- Title: Weaker Than You Think: A Critical Look at Weakly Supervised Learning
- Title(参考訳): 考えるより弱く:弱く監督された学習を批判的に見る
- Authors: Dawei Zhu, Xiaoyu Shen, Marius Mosbach, Andreas Stephan, Dietrich
Klakow
- Abstract要約: 弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。
多様なNLPデータセットとタスクを分析し、弱教師付きアプローチがいつ、なぜ機能するのかを確認する。
- 参考スコア(独自算出の注目度): 23.402300036995726
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised learning is a popular approach for training machine
learning models in low-resource settings. Instead of requesting high-quality
yet costly human annotations, it allows training models with noisy annotations
obtained from various weak sources. Recently, many sophisticated approaches
have been proposed for robust training under label noise, reporting impressive
results. In this paper, we revisit the setup of these approaches and find that
the benefits brought by these approaches are significantly overestimated.
Specifically, we find that the success of existing weakly supervised learning
approaches heavily relies on the availability of clean validation samples
which, as we show, can be leveraged much more efficiently by simply training on
them. After using these clean labels in training, the advantages of using these
sophisticated approaches are mostly wiped out. This remains true even when
reducing the size of the available clean data to just five samples per class,
making these approaches impractical. To understand the true value of weakly
supervised learning, we thoroughly analyze diverse NLP datasets and tasks to
ascertain when and why weakly supervised approaches work. Based on our
findings, we provide recommendations for future research.
- Abstract(参考訳): 弱い教師付き学習は、低リソース環境で機械学習モデルをトレーニングするための一般的なアプローチである。
高品質で高価なヒューマンアノテーションを要求する代わりに、さまざまな弱いソースから得られたノイズの多いアノテーションを持つトレーニングモデルを可能にする。
近年,ラベルノイズ下でのロバストトレーニングに多くの高度な手法が提案されている。
本稿では、これらのアプローチのセットアップを再検討し、これらのアプローチがもたらす利点が大幅に過大評価されていることを明らかにする。
具体的には、既存の弱い教師付き学習アプローチの成功は、クリーンな検証サンプルの可用性に大きく依存していることが分かりました。
トレーニングでこれらのクリーンなラベルを使用した後、これらの高度なアプローチを使用する利点は、ほとんど失われる。
利用可能なクリーンデータのサイズをクラス毎にわずか5つのサンプルに縮小しても、これは事実であり続けます。
弱教師付き学習の真の価値を理解するため,多様なNLPデータセットとタスクを徹底的に分析し,弱教師付き学習がなぜ機能するのかを確かめる。
本研究の成果を踏まえ,今後の研究を推奨する。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Fair Few-shot Learning with Auxiliary Sets [53.30014767684218]
多くの機械学習(ML)タスクでは、ラベル付きデータサンプルしか収集できないため、フェアネスのパフォーマンスが低下する可能性がある。
本稿では,限定的なトレーニングサンプルを用いたフェアネス認識学習課題をemphfair few-shot Learning問題として定義する。
そこで我々は,学習した知識をメタテストタスクに一般化し,様々なメタトレーニングタスクに公平な知識を蓄積する新しいフレームワークを考案した。
論文 参考訳(メタデータ) (2023-08-28T06:31:37Z) - Active Learning with Contrastive Pre-training for Facial Expression
Recognition [19.442685015494316]
本研究では,3つの公開FERデータセットを用いた最近のアクティブラーニング手法について検討する。
その結果,既存のアクティブラーニング手法はFERの文脈ではうまく動作しないことがわかった。
本稿では,まず,非ラベルデータセット全体に基づいて基礎となる表現を学習する,自己教師付き事前学習を提案する。
論文 参考訳(メタデータ) (2023-07-06T03:08:03Z) - Unsupervised Embedding Quality Evaluation [6.72542623686684]
SSLモデルは、他のドメインに転送された時に正常に動作するかどうか、しばしば不明である。
安定した方法でデータを線形に分離することがいかに容易か、定量化できますか?
本稿では,自己教師付き学習における高次元幾何学構造理解の最近の進歩に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2023-05-26T01:06:44Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Exploiting All Samples in Low-Resource Sentence Classification: Early Stopping and Initialization Parameters [6.368871731116769]
本研究では,データやモデルの再設計を伴わないラベル付きサンプルの活用方法について論じる。
重量平均化法を用いてモデルを初期化する統合手法を提案し,全てのサンプルを非バリデーション停止法を用いて訓練する。
本結果は,トレーニング戦略の重要性を強調し,低リソース環境における統合手法が第一歩となることを示唆している。
論文 参考訳(メタデータ) (2021-11-12T22:31:47Z) - Active Learning for Argument Mining: A Practical Approach [2.535271349350579]
AURC(Argument Unit Recognition and Classification)の課題において,能動学習は,優れた深層学習能力を得るために必要な労力を大幅に削減することを示した。
Active Learningは、アノテーションの最も有益なサンプルをクエリすることで、機械学習モデルのトレーニングに必要なデータ量を削減します。
論文 参考訳(メタデータ) (2021-09-28T10:58:47Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。