論文の概要: A Framework for Fast Polarity Labelling of Massive Data Streams
- arxiv url: http://arxiv.org/abs/2203.12368v1
- Date: Wed, 23 Mar 2022 12:41:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-24 22:33:29.325119
- Title: A Framework for Fast Polarity Labelling of Massive Data Streams
- Title(参考訳): 大規模データストリームの高速極性ラベリングのためのフレームワーク
- Authors: Huilin Wu and Mian Lu and Zhao Zheng and Shuhao Zhang
- Abstract要約: PLStreamは高速な非競合データストリームの高速極性ラベリングのためのフレームワークである。
2つの実世界のワークロードによる徹底的な実証検証は、PLStreamが高品質なラベルを生成することができることを示している。
- 参考スコア(独自算出の注目度): 2.6995631218854235
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many of the existing sentiment analysis techniques are based on supervised
learning, and they demand the availability of valuable training datasets to
train their models. When dataset freshness is critical, the annotating of high
speed unlabelled data streams becomes critical but remains an open problem. In
this paper, we propose PLStream, a novel Apache Flink-based framework for fast
polarity labelling of massive data streams, like Twitter tweets or online
product reviews. We address the associated implementation challenges and
propose a list of techniques including both algorithmic improvements and system
optimizations. A thorough empirical validation with two real-world workloads
demonstrates that PLStream is able to generate high quality labels (almost 80%
accuracy) in the presence of high-speed continuous unlabelled data streams
(almost 16,000 tuples/sec) without any manual efforts.
- Abstract(参考訳): 既存の感情分析技術の多くは教師付き学習に基づいており、モデルをトレーニングするための貴重なトレーニングデータセットの可用性を求めている。
データセットの鮮度が重要になると、ラベルなしの高速データストリームの注釈は重要になるが、オープンな問題のままである。
本稿では,Twitter のつぶやきやオンライン製品レビューなど,膨大なデータストリームの高速極性ラベリングのための新しい Apache Flink ベースのフレームワーク PLStream を提案する。
関連する実装課題に対処し、アルゴリズムの改良とシステム最適化の両方を含むテクニックのリストを提案する。
2つの実世界のワークロードによる徹底的な実証検証は、PLStreamが、手作業なしで、高速で連続的な非競合データストリーム(ほぼ16,000タプル/秒)の存在下で、高品質なラベル(ほぼ80%の精度)を生成できることを実証している。
関連論文リスト
- RPS: A Generic Reservoir Patterns Sampler [1.09784964592609]
本稿では,ストリーミングバッチデータからの直接パターンサンプリングを容易にするために,重み付き貯水池を利用する手法を提案する。
本稿では、時間的バイアスに対処し、逐次的、重み付け、および非重み付けを含む様々なパターンタイプを処理できる汎用アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-31T16:25:21Z) - Data Stream Sampling with Fuzzy Task Boundaries and Noisy Labels [0.03464344220266879]
進化するデータストリームにおいてノイズラベルを緩和するために,ノイズテストデバイアス法 (NTD) と呼ばれる新しいサンプリング手法を提案する。
NTDは簡単に実装でき、様々なシナリオで実現可能である。
その結果,データストリーム中のノイズラベルのあるシナリオにおけるオンライン連続学習におけるNTDの有効性が検証された。
論文 参考訳(メタデータ) (2024-04-07T08:32:16Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Label Delay in Online Continual Learning [77.05325581370893]
しばしば見過ごされる重要な側面はラベルの遅延であり、遅くてコストのかかるアノテーションプロセスのために新しいデータがラベル付けされない可能性がある。
本稿では,データとラベルストリーム間のラベル遅延を,時間経過とともに明示的にモデル化した新しい連続学習フレームワークを提案する。
提案手法はラベル遅延係数に最も影響を受けていないことを示し、場合によっては非遅延の精度を回復させる。
論文 参考訳(メタデータ) (2023-12-01T20:52:10Z) - A Benchmark Generative Probabilistic Model for Weak Supervised Learning [2.0257616108612373]
アノテーションの負担を軽減するために、弱監視学習アプローチが開発されている。
遅延変数モデル(PLVM)が4つのデータセット間で最先端のパフォーマンスを実現することを示す。
論文 参考訳(メタデータ) (2023-03-31T07:06:24Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Universalizing Weak Supervision [18.832796698152492]
ラベルタイプに対して弱い監督を可能にするユニバーサル手法を提案する。
我々は、このテクニックを、ハイパーボリック空間におけるランク付け、回帰、学習を含むWSフレームワークがこれまで取り組まなかった重要な問題に適用する。
論文 参考訳(メタデータ) (2021-12-07T17:59:10Z) - Instance exploitation for learning temporary concepts from sparsely
labeled drifting data streams [15.49323098362628]
ストリーミングデータソースからの継続的な学習がますます人気を博している。
動的で絶え間ない問題に対処することは 新たな課題を引き起こします
最も重要な制限の1つは、有限で完全なデータセットにアクセスできないことである。
論文 参考訳(メタデータ) (2020-09-20T08:11:43Z) - Temporal Calibrated Regularization for Robust Noisy Label Learning [60.90967240168525]
ディープニューラルネットワーク(DNN)は、大規模な注釈付きデータセットの助けを借りて、多くのタスクで大きな成功を収めている。
しかし、大規模なデータのラベル付けは非常にコストがかかりエラーが発生しやすいため、アノテーションの品質を保証することは困難である。
本稿では,従来のラベルと予測を併用したTCR(Temporal Calibrated Regularization)を提案する。
論文 参考訳(メタデータ) (2020-07-01T04:48:49Z) - Xtreaming: an incremental multidimensional projection technique and its
application to streaming data [58.92615359254597]
Xtreamingは、視覚表現を連続的に更新して新しい構造やパターンを反映し、複数の多次元データにアクセスすることなく、新たなインクリメンタルプロジェクション技術である。
実験の結果,Xtreamingは,他のストリーミングやインクリメンタル技術と比較して,グローバルな距離保存の点で競争力があることがわかった。
論文 参考訳(メタデータ) (2020-03-08T04:53:16Z) - Auto-Encoding Twin-Bottleneck Hashing [141.5378966676885]
本稿では,効率よく適応的なコード駆動グラフを提案する。
自動エンコーダのコンテキストでデコードすることで更新される。
ベンチマークデータセットの実験は、最先端のハッシュ手法よりもフレームワークの方が優れていることを明らかに示しています。
論文 参考訳(メタデータ) (2020-02-27T05:58:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。