論文の概要: IoT Data Trust Evaluation via Machine Learning
- arxiv url: http://arxiv.org/abs/2308.11638v1
- Date: Tue, 15 Aug 2023 05:44:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-27 04:47:28.185171
- Title: IoT Data Trust Evaluation via Machine Learning
- Title(参考訳): 機械学習によるIoTデータ信頼評価
- Authors: Timothy Tadj, Reza Arablouei, Volkan Dedeoglu
- Abstract要約: 本稿では,不信なデータを合成することによってIoT時系列データセットを増大させる,ランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。
また、IoT時系列センサデータから新機能を抽出し、自動相関を効果的に取得する。
これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用することができる。
- 参考スコア(独自算出の注目度): 4.0116218566600566
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Various approaches based on supervised or unsupervised machine learning (ML)
have been proposed for evaluating IoT data trust. However, assessing their
real-world efficacy is hard mainly due to the lack of related
publicly-available datasets that can be used for benchmarking. Since obtaining
such datasets is challenging, we propose a data synthesis method, called random
walk infilling (RWI), to augment IoT time-series datasets by synthesizing
untrustworthy data from existing trustworthy data. Thus, RWI enables us to
create labeled datasets that can be used to develop and validate ML models for
IoT data trust evaluation. We also extract new features from IoT time-series
sensor data that effectively capture its auto-correlation as well as its
cross-correlation with the data of the neighboring (peer) sensors. These
features can be used to learn ML models for recognizing the trustworthiness of
IoT sensor data. Equipped with our synthesized ground-truth-labeled datasets
and informative correlation-based feature, we conduct extensive experiments to
critically examine various approaches to evaluating IoT data trust via ML. The
results reveal that commonly used ML-based approaches to IoT data trust
evaluation, which rely on unsupervised cluster analysis to assign trust labels
to unlabeled data, perform poorly. This poor performance can be attributed to
the underlying unsubstantiated assumption that clustering provides reliable
labels for data trust, a premise that is found to be untenable. The results
also show that the ML models learned from datasets augmented via RWI while
using the proposed features generalize well to unseen data and outperform
existing related approaches. Moreover, we observe that a semi-supervised ML
approach that requires only about 10% of the data labeled offers competitive
performance while being practically more appealing compared to the
fully-supervised approaches.
- Abstract(参考訳): IoTデータの信頼性を評価するために,教師付きあるいは教師なし機械学習(ML)に基づくさまざまなアプローチが提案されている。
しかしながら、実際の有効性を評価することは、主にベンチマークに使用できる関連する公開データセットが欠如しているため、難しい。
このようなデータセットの取得は困難であるため,既存の信頼できるデータから信頼できないデータを合成することにより,IoT時系列データセットを拡張するためにランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。
したがって、RWIは、IoTデータ信頼評価のためのMLモデルの開発と検証に使用できるラベル付きデータセットを作成することができる。
また,iot 時系列センサデータから新たな特徴を抽出し,その自己相関を効果的に捉え,隣接する (peer) センサのデータと相互相関する。
これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用できる。
合成した地層ラベル付きデータセットと情報相関に基づく特徴を備え,MLによるIoTデータ信頼を評価するためのさまざまなアプローチを批判的に検討するために,広範な実験を行った。
その結果,信頼ラベルをラベル付きデータに割り当てるための教師なしクラスタ分析に頼っているIoTデータ信頼評価において,MLベースのアプローチが一般的に使用されていることが判明した。
この貧弱なパフォーマンスは、クラスタリングが信頼性の高いラベルをデータ信頼に提供しているという根拠のない仮定によるものと言えます。
また、提案した特徴を用いてRWIで拡張したデータセットから学習したMLモデルは、見つからないデータによく一般化され、既存の関連するアプローチより優れています。
さらに、ラベル付きデータの約10%を必要とする半教師付きmlアプローチは、完全に教師付きアプローチよりも実質的に魅力的でありながら、競争力のあるパフォーマンスを提供する。
関連論文リスト
- Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。
我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。
推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文 参考訳(メタデータ) (2025-02-14T16:16:02Z) - Demystifying Spectral Bias on Real-World Data [2.3020018305241337]
カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールである。
我々は、データセット間の学習可能性について検討し、複雑なデータセットのスペクトルバイアスを明らかにするために、高度に理想化されたデータ尺度に関連する固有値と固有関数を用いることを示す。
論文 参考訳(メタデータ) (2024-06-04T18:00:00Z) - Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。
大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。
CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文 参考訳(メタデータ) (2024-04-19T21:49:10Z) - FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。
本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。
本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文 参考訳(メタデータ) (2024-03-25T16:49:38Z) - Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。
データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。
本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文 参考訳(メタデータ) (2024-01-29T03:29:39Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL)
我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。
我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文 参考訳(メタデータ) (2022-11-22T22:53:17Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for
Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。
我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。
ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文 参考訳(メタデータ) (2021-01-02T09:04:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。