論文の概要: Concept Drift Adaptation in Text Stream Mining Settings: A Comprehensive
Review
- arxiv url: http://arxiv.org/abs/2312.02901v1
- Date: Tue, 5 Dec 2023 17:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 14:56:02.287541
- Title: Concept Drift Adaptation in Text Stream Mining Settings: A Comprehensive
Review
- Title(参考訳): テキストストリームマイニング設定におけるコンセプトドリフト適応:包括的レビュー
- Authors: Cristiano Mesquita Garcia and Ramon Simoes Abilio and Alessandro
Lameiras Koerich and Alceu de Souza Britto Jr. and Jean Paul Barddal
- Abstract要約: 本研究は,テキストストリームシナリオにおけるコンセプトドリフト適応に関する体系的な文献レビューを行った。
我々は,テキストドリフトカテゴリ,テキストドリフト検出のタイプ,モデル更新機構,宛先ストリームマイニングタスク,テキスト表現の種類,テキスト表現更新機構などの未解決の側面について,40の論文を選択した。
- 参考スコア(独自算出の注目度): 49.3179290313959
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the advent and increase in the popularity of the Internet, people have
been producing and disseminating textual data in several ways, such as reviews,
social media posts, and news articles. As a result, numerous researchers have
been working on discovering patterns in textual data, especially because social
media posts function as social sensors, indicating peoples' opinions,
interests, etc. However, most tasks regarding natural language processing are
addressed using traditional machine learning methods and static datasets. This
setting can lead to several problems, such as an outdated dataset, which may
not correspond to reality, and an outdated model, which has its performance
degrading over time. Concept drift is another aspect that emphasizes these
issues, which corresponds to data distribution and pattern changes. In a text
stream scenario, it is even more challenging due to its characteristics, such
as the high speed and data arriving sequentially. In addition, models for this
type of scenario must adhere to the constraints mentioned above while learning
from the stream by storing texts for a limited time and consuming low memory.
In this study, we performed a systematic literature review regarding concept
drift adaptation in text stream scenarios. Considering well-defined criteria,
we selected 40 papers to unravel aspects such as text drift categories, types
of text drift detection, model update mechanism, the addressed stream mining
tasks, types of text representations, and text representation update mechanism.
In addition, we discussed drift visualization and simulation and listed
real-world datasets used in the selected papers. Therefore, this paper
comprehensively reviews the concept drift adaptation in text stream mining
scenarios.
- Abstract(参考訳): インターネットの普及と普及により、人々はレビュー、ソーシャルメディア投稿、ニュース記事など、様々な方法でテキストデータを制作し、普及させてきた。
その結果、多くの研究者が、特にソーシャルメディア投稿がソーシャルセンサーとして機能し、人々の意見や興味などを示すため、テキストデータのパターンの発見に取り組んでいる。
しかしながら、自然言語処理に関するほとんどのタスクは、従来の機械学習メソッドと静的データセットを使用して処理される。
この設定は、現実と一致しない古いデータセットや、時間とともにパフォーマンスが低下する古いモデルなど、いくつかの問題を引き起こす可能性がある。
概念のドリフトは、データ分散とパターンの変化に対応するこれらの問題を強調する別の側面である。
テキストストリームのシナリオでは、高速やデータが順次やってくるといった特性のために、さらに難しい。
さらに、この種のシナリオのモデルは、テキストを限られた時間保存して低メモリ消費することでストリームから学習しながら、前述の制約に従わなければならない。
本研究では,テキストストリームシナリオにおける概念ドリフト適応に関する体系的文献レビューを行った。
適切に定義された基準を考慮し,テキストドリフトカテゴリ,テキストドリフト検出のタイプ,モデル更新機構,宛先ストリームマイニングタスク,テキスト表現の種類,テキスト表現更新機構など,40の論文を選択した。
さらに,ドリフトの可視化とシミュレーションについて検討し,選択した論文で使用した実世界のデータセットをリストアップした。
そこで本研究では,テキストストリームマイニングにおけるドリフト適応の概念を概観的にレビューする。
関連論文リスト
- Evolving Text Data Stream Mining [2.28438857884398]
このような大量のテキストデータは、毎日オンラインソーシャルプラットフォームによって生成される。
限られた時間とメモリの制約の下で,このようなストリーミングデータから有用な情報を学ぶことが注目されている。
テキストストリーム上でのクラスタリングとマルチラベル学習のための新しい学習モデルを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:38:52Z) - A Multimodal Transformer for Live Streaming Highlight Prediction [26.787089919015983]
ライブストリーミングは、将来のフレームなしで推論し、複雑なマルチモーダルインタラクションを処理するモデルを必要とする。
モーダル信号の時間的シフトを扱うための新しいモーダル時間アライメントモジュールを提案する。
本稿では,大規模データセットから学習し,ユーザの暗黙的なフィードバックを弱い監視信号として活用するための,境界対応Pairwise Lossを提案する。
論文 参考訳(メタデータ) (2024-06-15T04:59:19Z) - Methods for Generating Drift in Text Streams [49.3179290313959]
コンセプトドリフトは、実世界のデータセットで頻繁に発生する現象であり、時間とともにデータ分布の変化に対応する。
本稿では,ラベル付きドリフトを用いたデータセット作成を容易にするための4つのテキストドリフト生成手法を提案する。
その結果、ドリフトの直後にすべてのメソッドのパフォーマンスが低下し、インクリメンタルなSVMは、以前のパフォーマンスレベルを実行し、回復するのに最も速いことを示している。
論文 参考訳(メタデータ) (2024-03-18T23:48:33Z) - Text2Data: Low-Resource Data Generation with Textual Control [104.38011760992637]
自然言語は、人間が機械とシームレスに対話するための共通かつ直接的な制御信号として機能する。
ラベルのないデータを用いて教師なし拡散モデルを用いて基礎となるデータ分布を理解する新しいアプローチであるText2Dataを提案する。
制御性を確保し、破滅的な忘れを効果的に防止する、新しい制約最適化ベースの学習目標を通じて制御可能な微調整を行う。
論文 参考訳(メタデータ) (2024-02-08T03:41:39Z) - One or Two Things We know about Concept Drift -- A Survey on Monitoring
Evolving Environments [7.0072935721154614]
本稿では,教師なしデータストリームにおけるコンセプトドリフトに着目した文献レビューを行う。
この設定は、エンジニアリングにおける多くのタスクや課題に直接適用可能な監視と異常検出に特に関連している。
概念の漂流を説明するという,新たな話題に関するセクションがある。
論文 参考訳(メタデータ) (2023-10-24T13:25:19Z) - Temporal Perceiving Video-Language Pre-training [112.1790287726804]
本研究は、時間的・意味的な微粒なアライメントを可能にする、新しいテキスト-ビデオのローカライゼーション・プレテキストタスクを導入する。
具体的には、テキスト-ビデオのローカライゼーションは、テキスト記述が与えられたビデオの開始と終了の境界を予測するモーメント検索から成っている。
提案手法は,細粒度フレーム表現と単語表現を結合し,単一モードにおける異なるインスタンスの表現を暗黙的に区別する。
論文 参考訳(メタデータ) (2023-01-18T12:15:47Z) - An Overview on Controllable Text Generation via Variational
Auto-Encoders [15.97186478109836]
ニューラルベース生成モデリングの最近の進歩は、コンピュータシステムが人間と会話できるという期待を再燃させた。
変分自動エンコーダ(VAE)のような潜在変数モデル(LVM)は、テキストデータの分布パターンを特徴付けるように設計されている。
この概要は、既存の生成方式、テキスト変分自動エンコーダに関連する問題、および制御可能な生成に関するいくつかのアプリケーションについて概説する。
論文 参考訳(メタデータ) (2022-11-15T07:36:11Z) - Deep Learning for Text Style Transfer: A Survey [71.8870854396927]
テキストスタイル転送は、生成したテキストの特定の属性を制御することを目的として、自然言語生成において重要なタスクである。
2017年の最初のニューラルテキストスタイル転送作業以降,100以上の代表的な記事を対象とした,ニューラルテキストスタイル転送の研究の体系的な調査を行う。
タスクの定式化、既存のデータセットとサブタスク、評価、並列データと非並列データの存在下での豊富な方法論について論じる。
論文 参考訳(メタデータ) (2020-11-01T04:04:43Z) - Topic Adaptation and Prototype Encoding for Few-Shot Visual Storytelling [81.33107307509718]
トピック間一般化の能力をモデル化するためのトピック適応型ストーリーテラを提案する。
また,アトピー内導出能力のモデル化を目的とした符号化手法の試作も提案する。
実験結果から,トピック適応とプロトタイプ符号化構造が相互に利益をもたらすことが明らかとなった。
論文 参考訳(メタデータ) (2020-08-11T03:55:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。