論文の概要: Methods for Generating Drift in Text Streams
- arxiv url: http://arxiv.org/abs/2403.12328v1
- Date: Mon, 18 Mar 2024 23:48:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 17:52:34.444414
- Title: Methods for Generating Drift in Text Streams
- Title(参考訳): テキストストリーム中のドリフトの生成方法
- Authors: Cristiano Mesquita Garcia, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr, Jean Paul Barddal,
- Abstract要約: コンセプトドリフトは、実世界のデータセットで頻繁に発生する現象であり、時間とともにデータ分布の変化に対応する。
本稿では,ラベル付きドリフトを用いたデータセット作成を容易にするための4つのテキストドリフト生成手法を提案する。
その結果、ドリフトの直後にすべてのメソッドのパフォーマンスが低下し、インクリメンタルなSVMは、以前のパフォーマンスレベルを実行し、回復するのに最も速いことを示している。
- 参考スコア(独自算出の注目度): 49.3179290313959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systems and individuals produce data continuously. On the Internet, people share their knowledge, sentiments, and opinions, provide reviews about services and products, and so on. Automatically learning from these textual data can provide insights to organizations and institutions, thus preventing financial impacts, for example. To learn from textual data over time, the machine learning system must account for concept drift. Concept drift is a frequent phenomenon in real-world datasets and corresponds to changes in data distribution over time. For instance, a concept drift occurs when sentiments change or a word's meaning is adjusted over time. Although concept drift is frequent in real-world applications, benchmark datasets with labeled drifts are rare in the literature. To bridge this gap, this paper provides four textual drift generation methods to ease the production of datasets with labeled drifts. These methods were applied to Yelp and Airbnb datasets and tested using incremental classifiers respecting the stream mining paradigm to evaluate their ability to recover from the drifts. Results show that all methods have their performance degraded right after the drifts, and the incremental SVM is the fastest to run and recover the previous performance levels regarding accuracy and Macro F1-Score.
- Abstract(参考訳): システムと個人は継続的にデータを生成します。
インターネット上では、人々は自分の知識、感情、意見を共有し、サービスや製品に関するレビューを提供する。
これらのテキストデータから自動的に学習することで、組織や機関に洞察を与え、例えば財務的影響を防止できる。
テキストデータから時間の経過とともに学習するには、機械学習システムは概念の漂流を考慮しなければならない。
コンセプトドリフトは、実世界のデータセットで頻繁に発生する現象であり、時間とともにデータ分布の変化に対応する。
例えば、感情の変化や単語の意味が時間とともに調整されるときに、概念の漂流が起こる。
概念ドリフトは現実世界のアプリケーションでは頻繁に見られるが、ラベル付きドリフトを持つベンチマークデータセットは文献ではまれである。
このギャップを埋めるため,本論文では,ラベル付きドリフトを用いたデータセット作成を容易にする4つのテキストドリフト生成手法を提案する。
これらの手法はYelpとAirbnbのデータセットに適用され、ストリームマイニングパラダイムに関するインクリメンタルな分類器を使用して、ドリフトから回復する能力を評価する。
その結果、ドリフトの直後に全てのメソッドのパフォーマンスが劣化し、インクリメンタルSVMは、精度とマクロF1スコアに関する前のパフォーマンスレベルを実行および回復するのに最も高速であることがわかった。
関連論文リスト
- Unsupervised Concept Drift Detection from Deep Learning Representations in Real-time [5.999777817331315]
コンセプト・ドリフト(英: Concept Drift)は、対象領域の基本的なデータ分布と統計的性質が時間とともに変化する現象である。
我々は、教師なしリアルタイム概念ドリフト検出フレームワークDriftLensを提案する。
深層学習表現の分布距離を利用して非構造化データに作用する。
論文 参考訳(メタデータ) (2024-06-24T23:41:46Z) - Improving Sampling Methods for Fine-tuning SentenceBERT in Text Streams [49.3179290313959]
本研究では,選択的な微調整言語モデルの設計した7つのテキストサンプリング手法の有効性について検討した。
これらの手法がSBERTモデルの微調整に与える影響を, 4つの異なる損失関数を用いて正確に評価する。
その結果,テキストストリームの分類にはソフトマックスの損失とバッチ・オール・トリプレットの損失が特に有効であることが示唆された。
論文 参考訳(メタデータ) (2024-03-18T23:41:52Z) - Explaining Drift using Shapley Values [0.0]
機械学習モデルは、トレーニングされていないデータよりも結果を予測するために使用されると、パフォーマンスが劣化することが多い。
モデルパフォーマンスにおけるドリフトの背後にあるドライバを特定するためのフレームワークはありません。
ドリフトの主なコントリビュータを特定するために,原理化されたシェープ値を用いたDBShapを提案する。
論文 参考訳(メタデータ) (2024-01-18T07:07:42Z) - Concept Drift Adaptation in Text Stream Mining Settings: A Systematic Review [46.543216927386005]
本研究では,テキストストリームシナリオにおけるコンセプトドリフト適応に関する体系的な文献レビューを行う。
2018年から2024年8月にかけて,テキストドリフトカテゴリ,検出タイプ,モデル更新機構,ストリームマイニングタスクの対応,テキスト表現方法とその更新メカニズムなどの未解決の側面について,48の論文を選定した。
論文 参考訳(メタデータ) (2023-12-05T17:15:16Z) - A comprehensive analysis of concept drift locality in data streams [3.5897534810405403]
概念ドリフトは、進化するデータ特性への効果的なモデル適応のために検出されなければならない。
本稿では,その局所性とスケールに基づいて,概念ドリフトの新たな分類法を提案する。
我々は, 様々な難易度において, 9つの最先端ドリフト検出器の比較評価を行った。
論文 参考訳(メタデータ) (2023-11-10T20:57:43Z) - Adaptive Cross Batch Normalization for Metric Learning [75.91093210956116]
メトリクス学習はコンピュータビジョンの基本的な問題である。
蓄積した埋め込みが最新であることを保証することは、同様に重要であることを示す。
特に、蓄積した埋め込みと現在のトレーニングイテレーションにおける特徴埋め込みとの間の表現的ドリフトを回避する必要がある。
論文 参考訳(メタデータ) (2023-03-30T03:22:52Z) - Are Concept Drift Detectors Reliable Alarming Systems? -- A Comparative
Study [6.7961908135481615]
コンセプトドリフト(concept drift)またはコンセプトドリフト(concept drift)は、機械学習モデルのパフォーマンスに影響を与える。
本研究では, ドリフト検出装置の信頼性を評価し, 時間内ドリフトの同定を行う。
本研究の目的は,ドリフト検出器がどの状況で使用されるべきかを,実践者が理解できるようにすることである。
論文 参考訳(メタデータ) (2022-11-23T16:31:15Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Concept drift detection and adaptation for federated and continual
learning [55.41644538483948]
スマートデバイスは環境から大量のデータを収集することができる。
このデータは機械学習モデルのトレーニングに適しており、その振る舞いを大幅に改善することができる。
そこで本研究では,Concept-Drift-Aware Federated Averagingと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2021-05-27T17:01:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。