論文の概要: Concept Drift Adaptation in Text Stream Mining Settings: A Systematic Review
- arxiv url: http://arxiv.org/abs/2312.02901v2
- Date: Mon, 25 Nov 2024 23:38:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:33:01.115211
- Title: Concept Drift Adaptation in Text Stream Mining Settings: A Systematic Review
- Title(参考訳): テキストストリームマイニング設定におけるコンセプトドリフト適応:システムレビュー
- Authors: Cristiano Mesquita Garcia, Ramon Simoes Abilio, Alessandro Lameiras Koerich, Alceu de Souza Britto Jr., Jean Paul Barddal,
- Abstract要約: 本研究では,テキストストリームシナリオにおけるコンセプトドリフト適応に関する体系的な文献レビューを行う。
2018年から2024年8月にかけて,テキストドリフトカテゴリ,検出タイプ,モデル更新機構,ストリームマイニングタスクの対応,テキスト表現方法とその更新メカニズムなどの未解決の側面について,48の論文を選定した。
- 参考スコア(独自算出の注目度): 46.543216927386005
- License:
- Abstract: The society produces textual data online in several ways, e.g., via reviews and social media posts. Therefore, numerous researchers have been working on discovering patterns in textual data that can indicate peoples' opinions, interests, etc. Most tasks regarding natural language processing are addressed using traditional machine learning methods and static datasets. This setting can lead to several problems, e.g., outdated datasets and models, which degrade in performance over time. This is particularly true regarding concept drift, in which the data distribution changes over time. Furthermore, text streaming scenarios also exhibit further challenges, such as the high speed at which data arrives over time. Models for stream scenarios must adhere to the aforementioned constraints while learning from the stream, thus storing texts for limited periods and consuming low memory. This study presents a systematic literature review regarding concept drift adaptation in text stream scenarios. Considering well-defined criteria, we selected 48 papers published between 2018 and August 2024 to unravel aspects such as text drift categories, detection types, model update mechanisms, stream mining tasks addressed, and text representation methods and their update mechanisms. Furthermore, we discussed drift visualization and simulation and listed real-world datasets used in the selected papers. Finally, we brought forward a discussion on existing works in the area, also highlighting open challenges and future research directions for the community.
- Abstract(参考訳): 社会は、レビューやソーシャルメディアの投稿を通じて、様々な方法でテキストデータをオンラインで生成している。
そのため、多くの研究者が、人々の意見や関心などを表わすテキストデータのパターンの発見に取り組んできた。
自然言語処理に関するほとんどのタスクは、従来の機械学習手法と静的データセットを使用して対処される。
この設定は、古いデータセットやモデルなど、いくつかの問題を引き起こす可能性がある。
これは、データ分散が時間とともに変化するコンセプトドリフトに特に当てはまる。
さらに、テキストストリーミングのシナリオは、データが時間とともに到着する速度など、さらなる課題も示している。
ストリームシナリオのモデルは、上記の制約に従わなければならない。
本研究では,テキストストリームシナリオにおけるコンセプトドリフト適応に関する体系的な文献レビューを行う。
適切に定義された基準を考慮し,テキストドリフトカテゴリ,検出タイプ,モデル更新機構,ストリームマイニングタスク,テキスト表現方法,およびその更新メカニズムなど,2018年から2024年8月までに公表された48の論文を選択した。
さらに,ドリフトの可視化とシミュレーションと,選択した論文で使用される実世界のデータセットについて検討した。
最後に、この領域における既存の研究について議論し、オープンな課題とコミュニティの将来的な研究方向性を強調した。
関連論文リスト
- Evolving Text Data Stream Mining [2.28438857884398]
このような大量のテキストデータは、毎日オンラインソーシャルプラットフォームによって生成される。
限られた時間とメモリの制約の下で,このようなストリーミングデータから有用な情報を学ぶことが注目されている。
テキストストリーム上でのクラスタリングとマルチラベル学習のための新しい学習モデルを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:38:52Z) - A Multimodal Transformer for Live Streaming Highlight Prediction [26.787089919015983]
ライブストリーミングは、将来のフレームなしで推論し、複雑なマルチモーダルインタラクションを処理するモデルを必要とする。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用するための,境界対応Pairwise Lossを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:19Z) - Methods for Generating Drift in Text Streams [49.3179290313959]
コンセプトドリフトは、実世界のデータセットで頻繁に発生する現象であり、時間とともにデータ分布の変化に対応する。
本稿では,ラベル付きドリフトを用いたデータセット作成を容易にするための4つのテキストドリフト生成手法を提案する。
その結果、ドリフトの直後にすべてのメソッドのパフォーマンスが低下し、インクリメンタルなSVMは、以前のパフォーマンスレベルを実行し、回復するのに最も速いことを示している。
論文 参考訳(メタデータ) (2024-03-18T23:48:33Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - One or Two Things We know about Concept Drift -- A Survey on Monitoring
Evolving Environments [7.0072935721154614]
本稿では,教師なしデータストリームにおけるコンセプトドリフトに着目した文献レビューを行う。
この設定は、エンジニアリングにおける多くのタスクや課題に直接適用可能な監視と異常検出に特に関連している。
概念の漂流を説明するという,新たな話題に関するセクションがある。
論文 参考訳(メタデータ) (2023-10-24T13:25:19Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。