論文の概要: ActiveDP: Bridging Active Learning and Data Programming
- arxiv url: http://arxiv.org/abs/2402.06056v1
- Date: Thu, 8 Feb 2024 20:57:10 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 18:42:00.335821
- Title: ActiveDP: Bridging Active Learning and Data Programming
- Title(参考訳): ActiveDP: アクティブラーニングとデータプログラミングのブリッジ
- Authors: Naiqing Guan, Nick Koudas
- Abstract要約: 機械学習モデルは、優れたパフォーマンスを達成するために大きなラベル付きデータセットを必要とする。
大規模なデータセットを手動でラベル付けするのは高価で時間を要する。
データプログラミングパラダイムにより、ユーザは大規模なデータセットを効率的にラベル付けできるが、ノイズの多いラベルを生成できるため、下流モデルのパフォーマンスが低下する。
本研究では,アクティブラーニングとデータプログラミングを併用したインタラクティブなフレームワークであるActiveDPを提案し,高い精度とカバレッジでラベルを生成する。
- 参考スコア(独自算出の注目度): 16.20051083976088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning models require large labelled datasets to achieve
good performance, but manually labelling large datasets is expensive and
time-consuming. The data programming paradigm enables users to label large
datasets efficiently but produces noisy labels, which deteriorates the
downstream model's performance. The active learning paradigm, on the other
hand, can acquire accurate labels but only for a small fraction of instances.
In this paper, we propose ActiveDP, an interactive framework bridging active
learning and data programming together to generate labels with both high
accuracy and coverage, combining the strengths of both paradigms. Experiments
show that ActiveDP outperforms previous weak supervision and active learning
approaches and consistently performs well under different labelling budgets.
- Abstract(参考訳): 現代の機械学習モデルは、パフォーマンスを達成するために大きなラベル付きデータセットを必要とするが、大規模なデータセットを手動でラベル付けするのは高価で時間がかかる。
データプログラミングパラダイムにより、ユーザは大規模なデータセットを効率的にラベル付けできるが、ノイズの多いラベルを生成できる。
一方、アクティブラーニングパラダイムは正確なラベルを取得できるが、インスタンスのごく一部しか取得できない。
本稿では,アクティブラーニングとデータプログラミングを併用したインタラクティブなフレームワークであるActiveDPを提案する。
実験により、activedpは以前の弱い監督とアクティブラーニングアプローチよりも優れており、異なるラベリング予算下で一貫して機能することが示された。
関連論文リスト
- A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Active Learning with Combinatorial Coverage [0.0]
アクティブな学習は、ラベル付けするデータを選択するプロセスを自動化する機械学習の実践的な分野である。
現在の手法はデータラベリングの負担を軽減するのに有効であるが、モデルに強く依存する。
これにより、サンプルデータの新しいモデルへの転送が不可能になり、サンプリングバイアスの問題も発生した。
本稿では,これらの課題を克服するために,カバレッジを活用した能動的学習手法を提案する。
論文 参考訳(メタデータ) (2023-02-28T13:43:23Z) - Responsible Active Learning via Human-in-the-loop Peer Study [88.01358655203441]
我々は,データプライバシを同時に保持し,モデルの安定性を向上させるために,Pear Study Learning (PSL) と呼ばれる責任あるアクティブラーニング手法を提案する。
まず,クラウドサイドのタスク学習者(教師)から未学習データを分離する。
トレーニング中、タスク学習者は軽量なアクティブ学習者に指示し、アクティブサンプリング基準に対するフィードバックを提供する。
論文 参考訳(メタデータ) (2022-11-24T13:18:27Z) - Exploiting Diversity of Unlabeled Data for Label-Efficient
Semi-Supervised Active Learning [57.436224561482966]
アクティブラーニング(英: Active Learning)は、ラベリングのための最も重要なサンプルを選択することで、高価なラベリングの問題に対処する研究分野である。
アクティブな学習環境における初期ラベル付けのための最も情報性の高いサンプル群を選択するために,多様性に基づく新しい初期データセット選択アルゴリズムを提案する。
また、一貫性に基づく埋め込みの多様性に基づくサンプリングを用いた、新しいアクティブな学習クエリ戦略を提案する。
論文 参考訳(メタデータ) (2022-07-25T16:11:55Z) - ATM: An Uncertainty-aware Active Self-training Framework for
Label-efficient Text Classification [13.881283744970979]
ATMは、ラベルのないデータを活用するために自己学習を利用する新しいフレームワークであり、特定のALアルゴリズムに依存しない。
我々はATMが最強のアクティブラーニングと自己学習ベースラインを上回り、ラベル効率を平均51.9%向上させることを実証した。
論文 参考訳(メタデータ) (2021-12-16T11:09:48Z) - The Word is Mightier than the Label: Learning without Pointillistic
Labels using Data Programming [11.536162323162099]
ほとんどの高度な教師付き機械学習(ML)モデルは、大量のポイントバイポイントラベル付きトレーニング例に依存している。
大量のデータをハンドラベリングすることは、面倒で、高価で、エラーを起こしやすい。
論文 参考訳(メタデータ) (2021-08-24T19:11:28Z) - One-Round Active Learning [13.25385227263705]
1ラウンドのアクティブラーニングは、ラベル付け後の最高のユーティリティを達成するラベル付きデータポイントのサブセットを選択することを目的としている。
データユーティリティ関数の概念に基づく一括能動学習のための汎用フレームワークであるDULOを提案する。
以上の結果から,既存のアクティブな学習手法が複数ラウンドで成功する一方で,DULOは1ラウンドで常に優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2021-04-23T23:59:50Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z) - SLADE: A Self-Training Framework For Distance Metric Learning [75.54078592084217]
我々は、追加のラベルのないデータを活用することで、検索性能を向上させるための自己学習フレームワークSLADEを提案する。
まず、ラベル付きデータに基づいて教師モデルをトレーニングし、ラベルなしデータに対して擬似ラベルを生成する。
次に、最終機能埋め込みを生成するために、ラベルと擬似ラベルの両方で学生モデルをトレーニングします。
論文 参考訳(メタデータ) (2020-11-20T08:26:10Z) - Adaptive Self-training for Few-shot Neural Sequence Labeling [55.43109437200101]
ニューラルシークエンスラベリングモデルにおけるラベル不足問題に対処する手法を開発した。
自己学習は、大量のラベルのないデータから学ぶための効果的なメカニズムとして機能する。
メタラーニングは、適応的なサンプル再重み付けにおいて、ノイズのある擬似ラベルからのエラー伝播を軽減するのに役立つ。
論文 参考訳(メタデータ) (2020-10-07T22:29:05Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。