論文の概要: Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective
- arxiv url: http://arxiv.org/abs/2407.06902v1
- Date: Tue, 9 Jul 2024 14:34:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-10 17:47:35.254979
- Title: Learning From Crowdsourced Noisy Labels: A Signal Processing Perspective
- Title(参考訳): クラウドソーシングされたノイズラベルから学ぶ:信号処理の視点
- Authors: Shahana Ibrahim, Panagiotis A. Traganitis, Xiao Fu, Georgios B. Giannakis,
- Abstract要約: 本記事では,ノイズの多いクラウドソースラベルから学ぶことの進歩を紹介する。
その焦点は、古典的な統計モデルから最近のディープラーニングベースのアプローチまで、主要なクラウドソーシングモデルとその方法論的治療である。
特に、テンソルの識別可能性や非負行列分解など、信号処理(SP)理論と手法の関連性について概説する。
- 参考スコア(独自算出の注目度): 42.24248330317496
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the primary catalysts fueling advances in artificial intelligence (AI) and machine learning (ML) is the availability of massive, curated datasets. A commonly used technique to curate such massive datasets is crowdsourcing, where data are dispatched to multiple annotators. The annotator-produced labels are then fused to serve downstream learning and inference tasks. This annotation process often creates noisy labels due to various reasons, such as the limited expertise, or unreliability of annotators, among others. Therefore, a core objective in crowdsourcing is to develop methods that effectively mitigate the negative impact of such label noise on learning tasks. This feature article introduces advances in learning from noisy crowdsourced labels. The focus is on key crowdsourcing models and their methodological treatments, from classical statistical models to recent deep learning-based approaches, emphasizing analytical insights and algorithmic developments. In particular, this article reviews the connections between signal processing (SP) theory and methods, such as identifiability of tensor and nonnegative matrix factorization, and novel, principled solutions of longstanding challenges in crowdsourcing -- showing how SP perspectives drive the advancements of this field. Furthermore, this article touches upon emerging topics that are critical for developing cutting-edge AI/ML systems, such as crowdsourcing in reinforcement learning with human feedback (RLHF) and direct preference optimization (DPO) that are key techniques for fine-tuning large language models (LLMs).
- Abstract(参考訳): 人工知能(AI)と機械学習(ML)の進歩を後押しする主要な触媒の1つは、大規模でキュレートされたデータセットの可用性である。
このような巨大なデータセットをキュレートする一般的なテクニックはクラウドソーシングであり、複数のアノテータにデータが送信される。
アノテーションが生成したラベルは融合して下流の学習と推論タスクを提供する。
このアノテーションプロセスは、限られた専門知識やアノテータの信頼性の欠如など、様々な理由から、しばしばノイズの多いラベルを生成する。
したがって,クラウドソーシングにおける中核となる目的は,そのようなラベルノイズが学習課題に与える影響を効果的に緩和する手法を開発することである。
本記事では,ノイズの多いクラウドソースラベルから学ぶことの進歩を紹介する。
その焦点は、古典的な統計モデルから最近のディープラーニングベースのアプローチまで、主要なクラウドソーシングモデルとその方法論的治療であり、分析的洞察とアルゴリズム的発展を強調している。
特に、この記事では、テンソルの識別可能性や非負行列分解などの信号処理(SP)理論と手法の関連性、およびクラウドソーシングにおける長年の課題に対する新しい原理的解決策についてレビューし、SPパースペクティブがこの分野の進歩をいかに進めるかを示す。
さらに、本稿では、人間フィードバックによる強化学習におけるクラウドソーシング(RLHF)や、大規模言語モデル(LLM)を微調整するための重要な技術であるダイレクトプライオリティ最適化(DPO)など、最先端のAI/MLシステムの開発において重要なトピックについて触れる。
関連論文リスト
- Granularity Matters in Long-Tail Learning [62.30734737735273]
より粒度の細かいデータセットは、データの不均衡の影響を受けにくい傾向があります。
既存のクラスと視覚的に類似したオープンセット補助クラスを導入し、頭と尾の両方の表現学習を強化することを目的とした。
補助授業の圧倒的な存在がトレーニングを混乱させるのを防ぐために,近隣のサイレンシング障害を導入する。
論文 参考訳(メタデータ) (2024-10-21T13:06:21Z) - Leveraging Variation Theory in Counterfactual Data Augmentation for Optimized Active Learning [19.962212551963383]
アクティブラーニング(AL)は、モデルがユーザフィードバックからインタラクティブに学習することを可能にする。
本稿では,ALに反実データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T14:55:04Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Noise-Robust Fine-Tuning of Pretrained Language Models via External
Guidance [61.809732058101304]
ノイズラベルを用いた微調整PLMの革新的な手法を提案する。
このアプローチにはChatGPTのようなLarge Language Models(LLM)のガイダンスが組み込まれている。
このガイダンスは、クリーンサンプルとノイズサンプルを正確に区別するのに役立つ。
論文 参考訳(メタデータ) (2023-11-02T09:20:38Z) - Reinforcement Learning Based Multi-modal Feature Fusion Network for
Novel Class Discovery [47.28191501836041]
本稿では,人間の認知過程をシミュレートするために強化学習フレームワークを用いる。
また,マルチモーダル情報から特徴を抽出・融合するマルチエージェントフレームワークをデプロイした。
我々は、OS-MN40、OS-MN40-Miss、Cifar10データセットを用いて、3Dドメインと2Dドメインの両方でのアプローチの性能を示す。
論文 参考訳(メタデータ) (2023-08-26T07:55:32Z) - A Topical Approach to Capturing Customer Insight In Social Media [0.0]
この研究は、ノイズの多いビッグデータコンテキストにおいて、完全に教師なしのトピック抽出の課題に対処する。
本稿では,変分オートエンコーダフレームワーク上に構築した3つのアプローチを提案する。
我々のモデルは最先端の手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2023-07-14T11:15:28Z) - Learning with Noisy Labels through Learnable Weighting and Centroid Similarity [5.187216033152917]
ノイズラベルは、医学診断や自律運転などの領域で一般的である。
本稿では,雑音ラベルの存在下で機械学習モデルを訓練するための新しい手法を提案する。
以上の結果から,本手法は既存の最先端技術よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2023-03-16T16:43:24Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Few-Cost Salient Object Detection with Adversarial-Paced Learning [95.0220555274653]
本稿では,少数のトレーニング画像にのみ手動アノテーションを応用して,効果的なサルエント物体検出モデルを学習することを提案する。
我々は,このタスクを,少額の有能な物体検出とみなし,少数のコストの学習シナリオを促進するために,APL(Adversarialpaced Learning)ベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-05T14:15:49Z) - Improving Classification through Weak Supervision in Context-specific
Conversational Agent Development for Teacher Education [1.215785021723604]
教育シナリオ固有の会話エージェントを開発するのに必要な労力は、時間を要する。
アノテーションをモデリングするための従来のアプローチは、何千もの例をラベル付けし、アノテーション間の合意と多数決を計算することに依存してきた。
本稿では,これらの問題に対処するために,多タスク弱監視手法とアクティブラーニングを組み合わせた手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T23:39:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。