論文の概要: IoT Data Trust Evaluation via Machine Learning
- arxiv url: http://arxiv.org/abs/2308.11638v1
- Date: Tue, 15 Aug 2023 05:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-27 04:47:28.185171
- Title: IoT Data Trust Evaluation via Machine Learning
- Title(参考訳): 機械学習によるIoTデータ信頼評価
- Authors: Timothy Tadj, Reza Arablouei, Volkan Dedeoglu
- Abstract要約: 本稿では,不信なデータを合成することによってIoT時系列データセットを増大させる,ランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。
また、IoT時系列センサデータから新機能を抽出し、自動相関を効果的に取得する。
これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用することができる。
- 参考スコア(独自算出の注目度): 4.0116218566600566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various approaches based on supervised or unsupervised machine learning (ML)
have been proposed for evaluating IoT data trust. However, assessing their
real-world efficacy is hard mainly due to the lack of related
publicly-available datasets that can be used for benchmarking. Since obtaining
such datasets is challenging, we propose a data synthesis method, called random
walk infilling (RWI), to augment IoT time-series datasets by synthesizing
untrustworthy data from existing trustworthy data. Thus, RWI enables us to
create labeled datasets that can be used to develop and validate ML models for
IoT data trust evaluation. We also extract new features from IoT time-series
sensor data that effectively capture its auto-correlation as well as its
cross-correlation with the data of the neighboring (peer) sensors. These
features can be used to learn ML models for recognizing the trustworthiness of
IoT sensor data. Equipped with our synthesized ground-truth-labeled datasets
and informative correlation-based feature, we conduct extensive experiments to
critically examine various approaches to evaluating IoT data trust via ML. The
results reveal that commonly used ML-based approaches to IoT data trust
evaluation, which rely on unsupervised cluster analysis to assign trust labels
to unlabeled data, perform poorly. This poor performance can be attributed to
the underlying unsubstantiated assumption that clustering provides reliable
labels for data trust, a premise that is found to be untenable. The results
also show that the ML models learned from datasets augmented via RWI while
using the proposed features generalize well to unseen data and outperform
existing related approaches. Moreover, we observe that a semi-supervised ML
approach that requires only about 10% of the data labeled offers competitive
performance while being practically more appealing compared to the
fully-supervised approaches.
- Abstract(参考訳): IoTデータの信頼性を評価するために,教師付きあるいは教師なし機械学習(ML)に基づくさまざまなアプローチが提案されている。
しかしながら、実際の有効性を評価することは、主にベンチマークに使用できる関連する公開データセットが欠如しているため、難しい。
このようなデータセットの取得は困難であるため,既存の信頼できるデータから信頼できないデータを合成することにより,IoT時系列データセットを拡張するためにランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。
したがって、RWIは、IoTデータ信頼評価のためのMLモデルの開発と検証に使用できるラベル付きデータセットを作成することができる。
また,iot 時系列センサデータから新たな特徴を抽出し,その自己相関を効果的に捉え,隣接する (peer) センサのデータと相互相関する。
これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用できる。
合成した地層ラベル付きデータセットと情報相関に基づく特徴を備え,MLによるIoTデータ信頼を評価するためのさまざまなアプローチを批判的に検討するために,広範な実験を行った。
その結果,信頼ラベルをラベル付きデータに割り当てるための教師なしクラスタ分析に頼っているIoTデータ信頼評価において,MLベースのアプローチが一般的に使用されていることが判明した。
この貧弱なパフォーマンスは、クラスタリングが信頼性の高いラベルをデータ信頼に提供しているという根拠のない仮定によるものと言えます。
また、提案した特徴を用いてRWIで拡張したデータセットから学習したMLモデルは、見つからないデータによく一般化され、既存の関連するアプローチより優れています。
さらに、ラベル付きデータの約10%を必要とする半教師付きmlアプローチは、完全に教師付きアプローチよりも実質的に魅力的でありながら、競争力のあるパフォーマンスを提供する。
関連論文リスト
- Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。
本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文 参考訳(メタデータ) (2024-05-28T15:04:17Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Data Collaboration Analysis applied to Compound Datasets and the
Introduction of Projection data to Non-IID settings [6.037276428689637]
フェデレートラーニングは複合データセットに適用され、予測精度を高めつつ、潜在的にプロプライエタリな情報を保護している。
データ協調分析(DCPd)と呼ばれる,オープンソースからの化学合成データに対する分散機械学習の代替手法を提案する。
DCPdはラベルバイアスの程度が異なる実験では分類精度が無視できる低下を示した。
論文 参考訳(メタデータ) (2023-08-01T04:37:08Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文 参考訳(メタデータ) (2022-11-22T22:53:17Z) - Rethinking Data Heterogeneity in Federated Learning: Introducing a New
Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。
私たちの観察は直感的である。
私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文 参考訳(メタデータ) (2022-09-30T17:15:19Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。