論文の概要: Weakly Supervised Learning Meets Ride-Sharing User Experience
Enhancement
- arxiv url: http://arxiv.org/abs/2001.09027v1
- Date: Sun, 19 Jan 2020 05:36:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-08 10:14:25.768218
- Title: Weakly Supervised Learning Meets Ride-Sharing User Experience
Enhancement
- Title(参考訳): ライダーシェアリングによるユーザエクスペリエンス向上を実現するWakly Supervised Learning
- Authors: Lan-Zhe Guo, Feng Kuang, Zhang-Xun Liu, Yu-Feng Li, Nan Ma, Xiao-Hu
Qie
- Abstract要約: 我々はこのような問題を「弱教師付き学習」と呼んでいる。
コメントデータにおける重大ラベルノイズに対処するために、インスタンス再重み付け戦略を用いる。
Didiのライドシェアリングコメントデータの実験は、その有効性を明確に検証した。
- 参考スコア(独自算出の注目度): 45.15193405897984
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised learning aims at coping with scarce labeled data. Previous
weakly supervised studies typically assume that there is only one kind of weak
supervision in data. In many applications, however, raw data usually contains
more than one kind of weak supervision at the same time. For example, in user
experience enhancement from Didi, one of the largest online ride-sharing
platforms, the ride comment data contains severe label noise (due to the
subjective factors of passengers) and severe label distribution bias (due to
the sampling bias). We call such a problem as "compound weakly supervised
learning". In this paper, we propose the CWSL method to address this problem
based on Didi ride-sharing comment data. Specifically, an instance reweighting
strategy is employed to cope with severe label noise in comment data, where the
weights for harmful noisy instances are small. Robust criteria like AUC rather
than accuracy and the validation performance are optimized for the correction
of biased data label. Alternating optimization and stochastic gradient methods
accelerate the optimization on large-scale data. Experiments on Didi
ride-sharing comment data clearly validate the effectiveness. We hope this work
may shed some light on applying weakly supervised learning to complex real
situations.
- Abstract(参考訳): 弱教師付き学習は、ラベル付きデータの不足に対処することを目的としている。
従来の弱い教師付き研究では、データに弱い監督が1つしかないと仮定している。
しかし、多くのアプリケーションでは、生データは通常、複数の弱い監督を同時に含む。
例えば、最大規模のオンラインライドシェアリングプラットフォームであるDidiのユーザエクスペリエンス向上において、ライドコメントデータは(乗客の主観的要因による)ラベルノイズと(サンプリングバイアスによる)ラベル分布バイアスを含む。
このような問題を「弱教師付き学習」と呼んでいる。
本稿では,didiの配車コメントデータに基づいてこの問題に対処するためのcwsl手法を提案する。
具体的には, 有害な雑音の重み付けが小さいコメントデータにおいて, ラベルノイズに対処するために, インスタンス再重み付け戦略を用いる。
精度よりもAUCのようなロバストな基準と検証性能はバイアスデータラベルの修正に最適化されている。
代用最適化と確率勾配法は大規模データの最適化を加速する。
Didiのライドシェアリングコメントデータの実験は、その有効性を明確に検証した。
この研究が、複雑な実環境に弱い教師付き学習を適用することに光を当てることを望む。
関連論文リスト
- Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Improving a Named Entity Recognizer Trained on Noisy Data with a Few
Clean Instances [55.37242480995541]
クリーンなインスタンスの小さなセットから,ノイズの多いNERデータを誘導することで,ノイズを発生させる手法を提案する。
メインのNERモデルとともに、判別器モデルをトレーニングし、その出力を使用してサンプルの重み付けを校正します。
クラウドソーシングと遠隔監視データセットの結果から,提案手法は少ないガイダンスセットで継続的に性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2023-10-25T17:23:37Z) - FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness
for Semi-Supervised Learning [73.13448439554497]
Semi-Supervised Learning (SSL) は、ラベル付きデータが極めて少ない豊富なラベル付きデータを活用する効果的な方法である。
ほとんどのSSLメソッドは、通常、異なるデータ変換間のインスタンス単位の一貫性に基づいている。
本研究では,2つのデータセット間の一貫した学習性能を確保するために,クロスシャープネス尺度を最小化するFlatMatchを提案する。
論文 参考訳(メタデータ) (2023-10-25T06:57:59Z) - Data Consistency for Weakly Supervised Learning [15.365232702938677]
機械学習モデルのトレーニングには、大量の人間が注釈付けしたデータを使用する。
本稿では、雑音ラベル、すなわち弱い信号を処理する新しい弱監督アルゴリズムを提案する。
本研究では,テキストと画像の分類作業において,最先端の弱い監督手法を著しく上回っていることを示す。
論文 参考訳(メタデータ) (2022-02-08T16:48:19Z) - How to Leverage Unlabeled Data in Offline Reinforcement Learning [125.72601809192365]
オフライン強化学習(RL)は、静的データセットから制御ポリシーを学ぶことができるが、標準のRLメソッドと同様に、移行毎に報酬アノテーションを必要とする。
1つの自然な解決策は、ラベル付けされたデータから報酬関数を学習し、ラベル付けされていないデータをラベル付けすることである。
ラベルのないデータに単純に報酬をゼロにする方が、効果的なデータ共有につながる。
論文 参考訳(メタデータ) (2022-02-03T18:04:54Z) - Learning From Long-Tailed Data With Noisy Labels [0.0]
クラス不均衡とノイズラベルは多くの大規模分類データセットの標準である。
本稿では,近年の自己教師型学習の進歩をもとに,簡単な2段階のアプローチを提案する。
自己指導型学習アプローチは,重度のクラス不均衡に効果的に対処できることが判明した。
論文 参考訳(メタデータ) (2021-08-25T07:45:40Z) - Active learning for online training in imbalanced data streams under
cold start [0.8155575318208631]
本稿では,クラス不均衡の桁数を持つデータセットに対するアクティブラーニング(AL)アノテーションシステムを提案する。
本稿では,計算効率のよい Outlier-based Discriminative AL approach (ODAL) を提案する。
その結果,提案手法は標準ALポリシーよりも高速に高性能なモデルに到達できることが示唆された。
論文 参考訳(メタデータ) (2021-07-16T06:49:20Z) - Constrained Labeling for Weakly Supervised Learning [15.365232702938677]
本稿では、弱い監視信号を組み合わせるための単純なデータフリーアプローチを提案する。
我々の手法は効率よく安定しており、数回の降下を繰り返して収束する。
本手法は,様々なテキスト・画像分類タスクにおいて,他の弱い監督手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-09-15T21:30:53Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。