論文の概要: OEBench: Investigating Open Environment Challenges in Real-World
Relational Data Streams
- arxiv url: http://arxiv.org/abs/2308.15059v1
- Date: Tue, 29 Aug 2023 06:43:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 15:28:00.916664
- Title: OEBench: Investigating Open Environment Challenges in Real-World
Relational Data Streams
- Title(参考訳): OEBench: 実世界のリレーショナルデータストリームにおけるオープン環境問題の調査
- Authors: Yiqun Diao, Yutong Yang, Qinbin Li, Bingsheng He, Mian Lu
- Abstract要約: 我々はOEBenchという名のオープン環境ベンチマークを開発し、データストリームにおけるオープン環境の課題を評価する。
具体的には,55のリアルタイムストリーミングデータセットを調査し,オープン環境シナリオが実際に現実のデータセットに広く普及していることを確認する。
ベンチマークにより,データ量の増加は,オープン環境のシナリオに適用した場合のモデル精度を常に向上させるものではないことがわかった。
- 参考スコア(独自算出の注目度): 32.898349646434326
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Relational datasets are widespread in real-world scenarios and are usually
delivered in a streaming fashion. This type of data stream can present unique
challenges, such as distribution drifts, outliers, emerging classes, and
changing features, which have recently been described as open environment
challenges for machine learning. While some work has been done on incremental
learning for data streams, their evaluations are mostly conducted with manually
partitioned datasets. Moreover, while several real-world streaming datasets are
available, it is uncertain whether these open environment challenges are
prevalent and how existing incremental learning algorithms perform on real
datasets. To fill this gap, we develop an Open Environment Benchmark named
OEBench to evaluate open environment challenges in relational data streams.
Specifically, we investigate 55 real-world streaming datasets and establish
that open environment scenarios are indeed widespread in real-world datasets,
which presents significant challenges for stream learning algorithms. Through
benchmarks, we find that increased data quantity may not consistently enhance
the model accuracy when applied in open environment scenarios, where machine
learning models can be significantly compromised by distribution shifts,
anomalies, or untrustworthy data within real-world data streams. The current
techniques are insufficient in effectively mitigating these challenges posed by
open environments. Thus, it is promising to conduct more researches to address
real-world new challenges of open environment scenarios.
- Abstract(参考訳): リレーショナルデータセットは現実世界のシナリオで広く利用されており、通常はストリーミング形式で配信される。
このタイプのデータストリームは、分散ドリフト、異常値、新興クラス、機能変更など、マシンラーニングのオープン環境の課題として最近紹介されたユニークな課題を示すことができる。
データストリームのインクリメンタルな学習に関する作業もいくつか行われているが,その評価は主に,手作業による分割データセットで行われている。
さらに、いくつかの実世界のストリーミングデータセットが利用可能であるが、これらのオープン環境の課題が広まっているか、既存のインクリメンタル学習アルゴリズムが実際のデータセットでどのように機能するかは定かではない。
このギャップを埋めるために,リレーショナルデータストリームにおけるオープン環境の課題を評価するために,oebenchというオープン環境ベンチマークを開発した。
具体的には、55の実世界のストリーミングデータセットを調査し、オープン環境シナリオが実際に現実のデータセットに広く浸透していることを確認する。
ベンチマークにより,機械学習モデルが実世界のデータストリーム内の分散シフトや異常,あるいは信頼できないデータによって著しく損なわれる場合,オープン環境のシナリオに適用された場合,データ量の増加はモデル精度を一貫して向上しないことがわかった。
現在の技術は、オープン環境がもたらすこれらの課題を効果的に緩和するには不十分である。
したがって、オープン環境シナリオの現実的な新しい課題に取り組むために、さらなる研究を行うことを約束している。
関連論文リスト
- Object Detectors in the Open Environment: Challenges, Solutions, and Outlook [95.3317059617271]
オープン環境のダイナミックで複雑な性質は、オブジェクト検出器に新しくて恐ろしい挑戦をもたらす。
本稿では,オープン環境におけるオブジェクト検出器の総合的なレビューと解析を行う。
データ/ターゲットの変化の次元に基づいて、4つの四分法(ドメイン外、カテゴリ外、堅牢な学習、漸進的な学習)を含むフレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-24T19:32:39Z) - Adaptive Resource Allocation for Virtualized Base Stations in O-RAN with
Online Learning [60.17407932691429]
基地局(vBS)を備えたオープンラジオアクセスネットワークシステムは、柔軟性の向上、コスト削減、ベンダーの多様性、相互運用性のメリットを提供する。
本研究では,予期せぬ「混み合う」環境下であっても,効率的なスループットとvBSエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。
提案手法は, 課題のある環境においても, 平均最適性ギャップをゼロにすることで, サブ線形後悔を実現する。
論文 参考訳(メタデータ) (2023-09-04T17:30:21Z) - On the challenges to learn from Natural Data Streams [6.602973237811197]
実世界のコンテキストでは、時にデータはNatural Data Streamsの形で利用することができる。
このデータ組織は、従来の機械学習アルゴリズムとディープラーニングアルゴリズムの両方にとって興味深い、かつ難しいシナリオである。
本稿では,自然データストリームの学習入力として受信する各種アルゴリズムの分類性能について検討する。
論文 参考訳(メタデータ) (2023-01-09T16:32:02Z) - Learning from Data Streams: An Overview and Update [1.5076964620370268]
教師付きデータストリーム学習の基本的定義と設定を再構築する。
教師付きデータストリーム学習タスクを構成するものについて、新たに検討する。
データストリームから学ぶことは、シングルパスやオンライン学習のアプローチを強制しない、という点が主な重点です。
論文 参考訳(メタデータ) (2022-12-30T14:01:41Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Open Environment Machine Learning [84.90891046882213]
従来の機械学習研究は、学習プロセスの重要な要素が不変であるような近世界のシナリオを想定している。
本稿では,新しいクラスを創出する技術,デクリメンタル/インクリメンタルな特徴,データ分散の変化,学習目標の変化,理論的諸問題について概説する。
論文 参考訳(メタデータ) (2022-06-01T11:57:56Z) - ESTemd: A Distributed Processing Framework for Environmental Monitoring
based on Apache Kafka Streaming Engine [0.0]
分散ネットワークとリアルタイムシステムは、新しいコンピュータ時代、モノのインターネットにとって最も重要なコンポーネントになりつつある。
生成されたデータは、微妙な生態から自然資源、都市環境まで、環境指標を計測、推測、理解する能力を提供する。
不均質な環境データにストリーム処理を適用するための分散フレームワークであるEvent STream Processing Engine for Environmental Monitoring Domain (ESTemd)を提案する。
論文 参考訳(メタデータ) (2021-04-02T15:04:15Z) - Learning to Continuously Optimize Wireless Resource In Episodically
Dynamic Environment [55.91291559442884]
この研究は、データ駆動型手法が動的環境で継続的に学習し、最適化できる方法論を開発する。
本稿では,無線システム学習のモデリングプロセスに連続学習の概念を構築することを提案する。
我々の設計は、異なるデータサンプル間で「一定の公正性を保証する」新しいmin-maxの定式化に基づいている。
論文 参考訳(メタデータ) (2020-11-16T08:24:34Z) - Challenges in Benchmarking Stream Learning Algorithms with Real-world
Data [2.861782696432711]
ストリーミングデータは、センサー計測、衛星データフィード、株式市場、金融データなど、現実世界のアプリケーションにますます存在する。
データストリームマイニングコミュニティは、新しい提案の比較と評価に関するいくつかの主要な課題と困難に直面している。
実世界のデータを用いたストリームアルゴリズムのベンチマークのための新しい公開データリポジトリを提案する。
論文 参考訳(メタデータ) (2020-04-30T21:31:34Z) - LUNAR: Cellular Automata for Drifting Data Streams [19.98517714325424]
セルオートマトンを合理化したLUNARを提案する。
ドリフト条件に適応しながら、本当の漸進的な学習者として振る舞うことができる。
論文 参考訳(メタデータ) (2020-02-06T09:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。