論文の概要: OEBench: Investigating Open Environment Challenges in Real-World
Relational Data Streams
- arxiv url: http://arxiv.org/abs/2308.15059v2
- Date: Sun, 3 Sep 2023 14:43:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-07 02:35:26.530702
- Title: OEBench: Investigating Open Environment Challenges in Real-World
Relational Data Streams
- Title(参考訳): OEBench: 実世界のリレーショナルデータストリームにおけるオープン環境問題の調査
- Authors: Yiqun Diao, Yutong Yang, Qinbin Li, Bingsheng He, Mian Lu
- Abstract要約: 我々はOEBenchという名のオープン環境ベンチマークを開発し、リレーショナルデータストリームにおけるオープン環境の課題を評価する。
55の実世界のリレーショナルデータストリームを調査し,オープン環境シナリオが実世界のデータセットで実際に広く利用されていることを確かめる。
オープン環境のシナリオに適用した場合,データ量の増加はモデル精度を常に向上させるには至らない。
- 参考スコア(独自算出の注目度): 32.898349646434326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: How to get insights from relational data streams in a timely manner is a hot
research topic. This type of data stream can present unique challenges, such as
distribution drifts, outliers, emerging classes, and changing features, which
have recently been described as open environment challenges for machine
learning. While existing studies have been done on incremental learning for
data streams, their evaluations are mostly conducted with manually partitioned
datasets. Thus, a natural question is how those open environment challenges
look like in real-world relational data streams and how existing incremental
learning algorithms perform on real datasets. To fill this gap, we develop an
Open Environment Benchmark named OEBench to evaluate open environment
challenges in relational data streams. Specifically, we investigate 55
real-world relational data streams and establish that open environment
scenarios are indeed widespread in real-world datasets, which presents
significant challenges for stream learning algorithms. Through benchmarks with
existing incremental learning algorithms, we find that increased data quantity
may not consistently enhance the model accuracy when applied in open
environment scenarios, where machine learning models can be significantly
compromised by missing values, distribution shifts, or anomalies in real-world
data streams. The current techniques are insufficient in effectively mitigating
these challenges posed by open environments. More researches are needed to
address real-world open environment challenges. All datasets and code are
open-sourced in https://github.com/sjtudyq/OEBench.
- Abstract(参考訳): リレーショナルデータストリームからの洞察をタイムリーに取得する方法は、ホットな研究トピックです。
このタイプのデータストリームは、分散ドリフト、異常値、新興クラス、機能変更など、マシンラーニングのオープン環境の課題として最近紹介されたユニークな課題を示すことができる。
データストリームのインクリメンタルな学習に関するこれまでの研究は行われてきたが、その評価は主に手動で分割したデータセットで行われる。
このようにして、現実のリレーショナルデータストリームにおけるこれらのオープン環境の課題と、既存のインクリメンタル学習アルゴリズムが実際のデータセットでどのように機能するか、という自然な疑問が生まれます。
このギャップを埋めるために,リレーショナルデータストリームにおけるオープン環境の課題を評価するために,oebenchというオープン環境ベンチマークを開発した。
具体的には,実世界の55のリレーショナルデータストリームを調査し,オープン環境シナリオが実世界のデータセットで実際に広く普及していることを確認し,ストリーム学習アルゴリズムの重要な課題を示す。
既存のインクリメンタル学習アルゴリズムによるベンチマークを通じて、データ量の増加は、実世界のデータストリームにおける値の欠如、分散シフト、異常によって機械学習モデルを著しく損なう可能性があるオープン環境シナリオに適用された場合、モデルの精度を一貫して向上しない可能性があることがわかった。
現在の技術は、オープン環境がもたらすこれらの課題を効果的に緩和するには不十分である。
現実世界のオープン環境問題に対処するためには、さらなる研究が必要である。
すべてのデータセットとコードはhttps://github.com/sjtudyq/OEBenchで公開されている。
関連論文リスト
- Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - On the challenges to learn from Natural Data Streams [6.602973237811197]
実世界のコンテキストでは、時にデータはNatural Data Streamsの形で利用することができる。
このデータ組織は、従来の機械学習アルゴリズムとディープラーニングアルゴリズムの両方にとって興味深い、かつ難しいシナリオである。
本稿では,自然データストリームの学習入力として受信する各種アルゴリズムの分類性能について検討する。
論文 参考訳(メタデータ) (2023-01-09T16:32:02Z) - Learning from Data Streams: An Overview and Update [1.5076964620370268]
教師付きデータストリーム学習の基本的定義と設定を再構築する。
教師付きデータストリーム学習タスクを構成するものについて、新たに検討する。
データストリームから学ぶことは、シングルパスやオンライン学習のアプローチを強制しない、という点が主な重点です。
論文 参考訳(メタデータ) (2022-12-30T14:01:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - ESTemd: A Distributed Processing Framework for Environmental Monitoring
based on Apache Kafka Streaming Engine [0.0]
分散ネットワークとリアルタイムシステムは、新しいコンピュータ時代、モノのインターネットにとって最も重要なコンポーネントになりつつある。
生成されたデータは、微妙な生態から自然資源、都市環境まで、環境指標を計測、推測、理解する能力を提供する。
不均質な環境データにストリーム処理を適用するための分散フレームワークであるEvent STream Processing Engine for Environmental Monitoring Domain (ESTemd)を提案する。
論文 参考訳(メタデータ) (2021-04-02T15:04:15Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Challenges in Benchmarking Stream Learning Algorithms with Real-world
Data [2.861782696432711]
ストリーミングデータは、センサー計測、衛星データフィード、株式市場、金融データなど、現実世界のアプリケーションにますます存在する。
データストリームマイニングコミュニティは、新しい提案の比較と評価に関するいくつかの主要な課題と困難に直面している。
実世界のデータを用いたストリームアルゴリズムのベンチマークのための新しい公開データリポジトリを提案する。
論文 参考訳(メタデータ) (2020-04-30T21:31:34Z) - LUNAR: Cellular Automata for Drifting Data Streams [19.98517714325424]
セルオートマトンを合理化したLUNARを提案する。
ドリフト条件に適応しながら、本当の漸進的な学習者として振る舞うことができる。
論文 参考訳(メタデータ) (2020-02-06T09:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。