論文の概要: Mining Drifting Data Streams on a Budget: Combining Active Learning with
Self-Labeling
- arxiv url: http://arxiv.org/abs/2112.11019v1
- Date: Tue, 21 Dec 2021 07:19:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:51:19.022515
- Title: Mining Drifting Data Streams on a Budget: Combining Active Learning with
Self-Labeling
- Title(参考訳): 予算上のドリフトデータストリームのマイニング: アクティブラーニングとセルフラベルを組み合わせる
- Authors: {\L}ukasz Korycki, Bartosz Krawczyk
- Abstract要約: 本稿では,アクティブラーニングと自己ラベルによる情報を組み合わせることで,ドリフトするデータストリームを予算でマイニングする新しいフレームワークを提案する。
我々は,概念ドリフトの可能性を考慮して,インテリジェントなインスタンス選択と半教師付き手順の両方を活用できる戦略をいくつか導入する。
- 参考スコア(独自算出の注目度): 6.436899373275926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mining data streams poses a number of challenges, including the continuous
and non-stationary nature of data, the massive volume of information to be
processed and constraints put on the computational resources. While there is a
number of supervised solutions proposed for this problem in the literature,
most of them assume that access to the ground truth (in form of class labels)
is unlimited and such information can be instantly utilized when updating the
learning system. This is far from being realistic, as one must consider the
underlying cost of acquiring labels. Therefore, solutions that can reduce the
requirements for ground truth in streaming scenarios are required. In this
paper, we propose a novel framework for mining drifting data streams on a
budget, by combining information coming from active learning and self-labeling.
We introduce several strategies that can take advantage of both intelligent
instance selection and semi-supervised procedures, while taking into account
the potential presence of concept drift. Such a hybrid approach allows for
efficient exploration and exploitation of streaming data structures within
realistic labeling budgets. Since our framework works as a wrapper, it may be
applied with different learning algorithms. Experimental study, carried out on
a diverse set of real-world data streams with various types of concept drift,
proves the usefulness of the proposed strategies when dealing with highly
limited access to class labels. The presented hybrid approach is especially
feasible when one cannot increase a budget for labeling or replace an
inefficient classifier. We deliver a set of recommendations regarding areas of
applicability for our strategies.
- Abstract(参考訳): データストリームのマイニングには、連続的および非定常的なデータの性質、処理すべき大量の情報、計算リソースの制約など、多くの課題がある。
文献では、この問題に対して多くの教師付きソリューションが提案されているが、ほとんどは(クラスラベルの形で)基礎的真理へのアクセスは無制限であり、学習システムを更新する際に即座にそのような情報を利用できると仮定している。
これは、レーベルの買収の根底にあるコストを考える必要があるため、現実的ではない。
そのため、ストリーミングシナリオにおける根拠真理の要件を低減できるソリューションが必要となる。
本稿では,アクティブラーニングから得られる情報と自己ラベルを組み合わせることにより,予算上ドリフトデータストリームをマイニングする新しい枠組みを提案する。
我々は,概念ドリフトの可能性を考慮して,インテリジェントなインスタンス選択と半教師付き手順の両方を活用できる戦略をいくつか導入する。
このようなハイブリッドアプローチは、現実的なラベリング予算内で、ストリーミングデータ構造の効率的な探索と活用を可能にする。
我々のフレームワークはラッパーとして機能するため、異なる学習アルゴリズムで適用することができる。
様々な概念ドリフトを持つ多種多様な実世界のデータストリームを用いた実験研究は,クラスラベルへの高度に制限されたアクセスを扱う際に提案手法の有用性を実証する。
提案したハイブリッドアプローチは、特に非効率な分類器のラベル付けや置換の予算を増やせない場合に実現可能である。
戦略の適用性に関する一連の推奨事項を提示します。
関連論文リスト
- Active learning for data streams: a survey [0.48951183832371004]
オンラインアクティブな学習は機械学習のパラダイムであり、データストリームからラベルに最も情報のあるデータポイントを選択することを目的としている。
それぞれの観測に注釈をつけるのは時間と費用がかかり、大量のラベル付きデータを得るのが難しくなる。
本研究の目的は、データストリームから最も情報性の高い観測をリアルタイムで選択するための、最近提案されたアプローチの概要を提供することである。
論文 参考訳(メタデータ) (2023-02-17T14:24:13Z) - Combining self-labeling and demand based active learning for
non-stationary data streams [7.951705533903104]
非定常データストリームからの学習は、ストリーム形式でより多くのデータが利用可能になるにつれて、関心が高まる研究方向である。
殆どのアプローチは、サンプルの基礎的真実が利用可能となり、テストテーマトレイン方式で教師付きオンライン学習を行うと仮定している。
本研究では,少ないラベル付きデータストリームに着目し,徐々に漂流するデータストリームにおける自己ラベル化の可能性を探る。
論文 参考訳(メタデータ) (2023-02-08T15:38:51Z) - Nonstationary data stream classification with online active learning and
siamese neural networks [11.501721946030779]
予測モデルをオンザフライでトレーニングするオンライン学習方法に対する新たなニーズ。
しかし、一連のオープンな課題は、実際にデプロイを妨げている。
本稿では,オンラインアクティブラーニング,シアムネットワーク,マルチキューメモリを組み合わせることで,これらの課題に対処するActiSiameseアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T17:16:03Z) - An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning [58.59343434538218]
間接学習の観点から、ラベルなしデータの正負の擬似ラベルを正確に予測するための、単純だが非常に効果的な手法を提案する。
私たちのアプローチは、オフザシェルフ操作のみを使用することで、ほんの数行のコードで実装できます。
論文 参考訳(メタデータ) (2022-09-28T02:11:34Z) - Deep Active Learning with Budget Annotation [0.0]
本稿では,インスタンスの不確実性と情報性の両方を計算するためのハイブリッドアプローチを提案する。
我々は、これらのモデルにすでに含まれている情報に対する問い合わせを避けるために、最先端の事前訓練モデルを採用する。
論文 参考訳(メタデータ) (2022-07-31T20:20:44Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - Budget-aware Few-shot Learning via Graph Convolutional Network [56.41899553037247]
本稿では,いくつかの例から新しい視覚概念を学習することを目的とした,数ショット学習の課題に取り組む。
数ショット分類における一般的な問題設定は、データラベルの取得においてランダムサンプリング戦略を前提としている。
そこで我々は,新しい対象カテゴリーの学習を目的とした,予算に配慮した数発の学習問題を新たに導入する。
論文 参考訳(メタデータ) (2022-01-07T02:46:35Z) - Just Label What You Need: Fine-Grained Active Selection for Perception
and Prediction through Partially Labeled Scenes [78.23907801786827]
提案手法は,コストに配慮した手法と,部分的にラベル付けされたシーンを通じて詳細なサンプル選択を可能にする一般化を導入している。
実世界の大規模自動運転データセットに関する我々の実験は、微粒な選択が知覚、予測、下流計画タスクのパフォーマンスを向上させることを示唆している。
論文 参考訳(メタデータ) (2021-04-08T17:57:41Z) - Instance exploitation for learning temporary concepts from sparsely
labeled drifting data streams [15.49323098362628]
ストリーミングデータソースからの継続的な学習がますます人気を博している。
動的で絶え間ない問題に対処することは 新たな課題を引き起こします
最も重要な制限の1つは、有限で完全なデータセットにアクセスできないことである。
論文 参考訳(メタデータ) (2020-09-20T08:11:43Z) - Learning to Count in the Crowd from Limited Labeled Data [109.2954525909007]
我々は,限られた数のラベル付きサンプルから参加者を数えることを学ぶことで,アノテーションの努力を減らすことに重点を置いている。
具体的には,未ラベルデータに対する擬似地下真理推定を含むガウス過程に基づく反復学習機構を提案する。
論文 参考訳(メタデータ) (2020-07-07T04:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。