Fugu-MT 論文翻訳(概要): IoT Data Trust Evaluation via Machine Learning

論文の概要: IoT Data Trust Evaluation via Machine Learning

arxiv url: http://arxiv.org/abs/2308.11638v1
Date: Tue, 15 Aug 2023 05:44:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-27 04:47:28.185171
Title: IoT Data Trust Evaluation via Machine Learning
Title（参考訳）: 機械学習によるIoTデータ信頼評価
Authors: Timothy Tadj, Reza Arablouei, Volkan Dedeoglu
Abstract要約: 本稿では,不信なデータを合成することによってIoT時系列データセットを増大させる,ランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。また、IoT時系列センサデータから新機能を抽出し、自動相関を効果的に取得する。これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用することができる。
参考スコア（独自算出の注目度）: 4.0116218566600566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Various approaches based on supervised or unsupervised machine learning (ML) have been proposed for evaluating IoT data trust. However, assessing their real-world efficacy is hard mainly due to the lack of related publicly-available datasets that can be used for benchmarking. Since obtaining such datasets is challenging, we propose a data synthesis method, called random walk infilling (RWI), to augment IoT time-series datasets by synthesizing untrustworthy data from existing trustworthy data. Thus, RWI enables us to create labeled datasets that can be used to develop and validate ML models for IoT data trust evaluation. We also extract new features from IoT time-series sensor data that effectively capture its auto-correlation as well as its cross-correlation with the data of the neighboring (peer) sensors. These features can be used to learn ML models for recognizing the trustworthiness of IoT sensor data. Equipped with our synthesized ground-truth-labeled datasets and informative correlation-based feature, we conduct extensive experiments to critically examine various approaches to evaluating IoT data trust via ML. The results reveal that commonly used ML-based approaches to IoT data trust evaluation, which rely on unsupervised cluster analysis to assign trust labels to unlabeled data, perform poorly. This poor performance can be attributed to the underlying unsubstantiated assumption that clustering provides reliable labels for data trust, a premise that is found to be untenable. The results also show that the ML models learned from datasets augmented via RWI while using the proposed features generalize well to unseen data and outperform existing related approaches. Moreover, we observe that a semi-supervised ML approach that requires only about 10% of the data labeled offers competitive performance while being practically more appealing compared to the fully-supervised approaches.
Abstract（参考訳）: IoTデータの信頼性を評価するために,教師付きあるいは教師なし機械学習(ML)に基づくさまざまなアプローチが提案されている。しかしながら、実際の有効性を評価することは、主にベンチマークに使用できる関連する公開データセットが欠如しているため、難しい。このようなデータセットの取得は困難であるため,既存の信頼できるデータから信頼できないデータを合成することにより,IoT時系列データセットを拡張するためにランダムウォークインフィル(RWI)と呼ばれるデータ合成手法を提案する。したがって、RWIは、IoTデータ信頼評価のためのMLモデルの開発と検証に使用できるラベル付きデータセットを作成することができる。また,iot 時系列センサデータから新たな特徴を抽出し,その自己相関を効果的に捉え,隣接する (peer) センサのデータと相互相関する。これらの機能は、IoTセンサーデータの信頼性を認識するためのMLモデルを学ぶために使用できる。合成した地層ラベル付きデータセットと情報相関に基づく特徴を備え,MLによるIoTデータ信頼を評価するためのさまざまなアプローチを批判的に検討するために,広範な実験を行った。その結果,信頼ラベルをラベル付きデータに割り当てるための教師なしクラスタ分析に頼っているIoTデータ信頼評価において,MLベースのアプローチが一般的に使用されていることが判明した。この貧弱なパフォーマンスは、クラスタリングが信頼性の高いラベルをデータ信頼に提供しているという根拠のない仮定によるものと言えます。また、提案した特徴を用いてRWIで拡張したデータセットから学習したMLモデルは、見つからないデータによく一般化され、既存の関連するアプローチより優れています。さらに、ラベル付きデータの約10%を必要とする半教師付きmlアプローチは、完全に教師付きアプローチよりも実質的に魅力的でありながら、競争力のあるパフォーマンスを提供する。

関連論文リスト

Improving Zero-shot ADL Recognition with Large Language Models through Event-based Context and Confidence [1.2599533416395765]
スマートホームにおける日常生活活動のセンサベース認識は、医療、安全、エネルギー管理などのアプリケーションをサポートする。近年,Large Language Models (LLMs) に基づくゼロショット法では,ラベル付きADLセンサデータへの依存を取り除く利点がある。本稿では,イベントベースセグメンテーションによるゼロショットADL認識の改善と,予測信頼度を推定するための新しい手法を提案する。
論文参考訳（メタデータ） (2026-01-13T05:58:24Z)
Knowledge-to-Data: LLM-Driven Synthesis of Structured Network Traffic for Testbed-Free IDS Evaluation [0.4893345190925178]
本稿では,Large Language Models (LLMs) が構造化された合成ネットワークトラフィックデータセットを生成するための制御された知識データエンジンとして機能するかどうかを検討する。本稿では,プロトコル文書,アタックセマンティクス,および明示的な統計的ルールを組み合わせた手法を提案する。その結果、明示的な制約の下では、LLM生成データセットは実際のネットワークトラフィックの統計的および構造的特性を正確に近似することができることがわかった。
論文参考訳（メタデータ） (2026-01-08T15:31:33Z)
SPATA: Systematic Pattern Analysis for Detailed and Transparent Data Cards [4.332839547082766]
本稿では,より詳細かつ透明なデータカードを提供するために,SPATA(Systematic Pattern Analysis)を提案する。 SPATAは各データインスタンスのプロジェクションを離散空間に計算し、データ漏洩のリスクを冒さずに分析し、比較することができる。
論文参考訳（メタデータ） (2025-09-30T17:59:45Z)
Data Valuation and Selection in a Federated Model Marketplace [28.369108318258753]
本稿では、フェデレートラーニング(FL)に適したワッサーシュタインに基づく推定器を中心にした包括的フレームワークを提案する。プライバシを確保するために、生データへのアクセスを必要とせず、ワッサースタイン距離を近似する分散手法を提案する。我々のアプローチは、高いパフォーマンスデータの組み合わせを一貫して特定し、より信頼性の高いFLベースのモデルマーケットプレースへの道を開く。
論文参考訳（メタデータ） (2025-09-09T06:45:30Z)
DUPRE: Data Utility Prediction for Efficient Data Valuation [49.60564885180563]
Data Shapleyのような協調ゲーム理論に基づくデータ評価では、データユーティリティを評価し、複数のデータサブセットに対してMLモデルを再トレーニングする必要がある。我々のフレームワークである textttDUPRE は、モデル再学習による評価ではなく、データユーティリティを予測することによって、サブセット評価当たりのコストを削減できる代替手法を採用しています。具体的には、いくつかのデータサブセットのデータユーティリティを評価すると、textttDUPREは、他のすべてのデータサブセットの有用性を予測するために、emphGaussianプロセス(GP)回帰モデルに適合する。
論文参考訳（メタデータ） (2025-02-22T08:53:39Z)
Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文参考訳（メタデータ） (2025-02-17T18:04:39Z)
Large Language Models and Synthetic Data for Monitoring Dataset Mentions in Research Papers [0.0]
本稿では,研究領域間のデータセット参照検出を自動化する機械学習フレームワークを提案する。我々は,研究論文からゼロショット抽出,品質評価のためのLCM-as-a-Judge,および改良のための推論剤を用いて,弱教師付き合成データセットを生成する。推論では、ModernBERTベースの分類器がデータセットの参照を効率的にフィルタリングし、高いリコールを維持しながら計算オーバーヘッドを低減する。
論文参考訳（メタデータ） (2025-02-14T16:16:02Z)
Demystifying Spectral Bias on Real-World Data [2.3020018305241337]
カーネルリッジ回帰(KRR)とガウス過程(GP)は統計学と機械学習の基本的なツールである。我々は、データセット間の学習可能性について検討し、複雑なデータセットのスペクトルバイアスを明らかにするために、高度に理想化されたデータ尺度に関連する固有値と固有関数を用いることを示す。
論文参考訳（メタデータ） (2024-06-04T18:00:00Z)
Truthful Dataset Valuation by Pointwise Mutual Information [28.63827288801458]
観測データを真に報告することで,データ提供者が常に期待するスコアを最大化することができる新しいデータ評価手法を提案する。本手法は、適切なスコアリングルールのパラダイムに従って、テストデータセットと評価データセットのポイントワイド相互情報(PMI)を測定する。
論文参考訳（メタデータ） (2024-05-28T15:04:17Z)
Self-Supervised Learning for User Localization [8.529237718266042]
機械学習技術は、ローカライゼーションタスクにおいて顕著な精度を示している。大量のラベル付きデータ、特にChannel State Information(CSI)およびそれに対応する座標への依存は、依然としてボトルネックである。 CSIに基づくユーザローカライゼーションのための教師付き学習性能を高めるために,ラベルなしデータによる自己教師付き事前学習を活用する先駆的手法を提案する。
論文参考訳（メタデータ） (2024-04-19T21:49:10Z)
FLIGAN: Enhancing Federated Learning with Incomplete Data using GAN [1.5749416770494706]
Federated Learning (FL)は、ネットワークデバイス上での機械学習モデルの分散トレーニングのためのプライバシ保護メカニズムを提供する。本稿では,FLにおけるデータ不完全性問題に対処する新しいアプローチであるFLIGANを提案する。本手法はFLのプライバシ要件に則り,プロセス内の実際のデータを共有せずに合成データをフェデレートした方法で生成する。
論文参考訳（メタデータ） (2024-03-25T16:49:38Z)
Importance-Aware Adaptive Dataset Distillation [53.79746115426363]
ディープラーニングモデルの開発は、大規模データセットの可用性によって実現されている。データセットの蒸留は、大きな元のデータセットから必須情報を保持するコンパクトなデータセットを合成することを目的としている。本稿では, 蒸留性能を向上する重要適応型データセット蒸留(IADD)法を提案する。
論文参考訳（メタデータ） (2024-01-29T03:29:39Z)
Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文参考訳（メタデータ） (2023-12-14T18:56:07Z)
Data Collaboration Analysis applied to Compound Datasets and the Introduction of Projection data to Non-IID settings [6.037276428689637]
フェデレートラーニングは複合データセットに適用され、予測精度を高めつつ、潜在的にプロプライエタリな情報を保護している。データ協調分析(DCPd)と呼ばれる,オープンソースからの化学合成データに対する分散機械学習の代替手法を提案する。 DCPdはラベルバイアスの程度が異なる実験では分類精度が無視できる低下を示した。
論文参考訳（メタデータ） (2023-08-01T04:37:08Z)
Bring Your Own Data! Self-Supervised Evaluation for Large Language Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。自己監督評価と人監督評価との間には強い相関関係が認められた。
論文参考訳（メタデータ） (2023-06-23T17:59:09Z)
Promises and Pitfalls of Threshold-based Auto-labeling [17.349289155257715]
Threshold-based auto-labeling (TBAL) 我々は,機械ラベルデータの品質を保証するために必要な人間ラベル付き検証データの量に基づいて,複雑性境界を導出する。我々は、合成データセットと実データセットに関する広範な実験により、理論的保証を検証する。
論文参考訳（メタデータ） (2022-11-22T22:53:17Z)
Rethinking Data Heterogeneity in Federated Learning: Introducing a New Notion and Standard Benchmarks [65.34113135080105]
我々は、現在のセットアップにおけるデータ不均一性の問題が必ずしも問題であるだけでなく、FL参加者にとって有益であることを示す。私たちの観察は直感的である。私たちのコードはhttps://github.com/MMorafah/FL-SC-NIIDで利用可能です。
論文参考訳（メタデータ） (2022-09-30T17:15:19Z)
DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文参考訳（メタデータ） (2022-07-20T17:47:54Z)
ORDisCo: Effective and Efficient Usage of Incremental Unlabeled Data for Semi-supervised Continual Learning [52.831894583501395]
連続学習は、入力されたデータが完全にラベル付けされていると仮定し、実際のアプリケーションでは適用できないかもしれない。我々は、条件付き生成逆数ネットワーク(GAN)を用いた分類器を相互に学習するために、識別器整合(ORDisCo)を用いたディープオンライン再生を提案する。 ORDisCo が SSCL の様々な半教師付き学習ベンチマークデータセットで大幅なパフォーマンス向上を達成していることを示します。
論文参考訳（メタデータ） (2021-01-02T09:04:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。