論文の概要: On the Use of Interpretable Machine Learning for the Management of Data
Quality
- arxiv url: http://arxiv.org/abs/2007.14677v1
- Date: Wed, 29 Jul 2020 08:49:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-05 19:26:26.029086
- Title: On the Use of Interpretable Machine Learning for the Management of Data
Quality
- Title(参考訳): データ品質管理における解釈可能な機械学習の利用について
- Authors: Anna Karanika, Panagiotis Oikonomou, Kostas Kolomvatsos, Christos
Anagnostopoulos
- Abstract要約: 我々は、解釈可能な機械学習を用いて、あらゆるデータ処理アクティビティをベースとした重要な機能を提供する。
私たちの目標は、少なくとも、収集されたデータセットで重要なものとして検出される機能に対して、データ品質を確保することです。
- 参考スコア(独自算出の注目度): 13.075880857448059
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data quality is a significant issue for any application that requests for
analytics to support decision making. It becomes very important when we focus
on Internet of Things (IoT) where numerous devices can interact to exchange and
process data. IoT devices are connected to Edge Computing (EC) nodes to report
the collected data, thus, we have to secure data quality not only at the IoT
but also at the edge of the network. In this paper, we focus on the specific
problem and propose the use of interpretable machine learning to deliver the
features that are important to be based for any data processing activity. Our
aim is to secure data quality, at least, for those features that are detected
as significant in the collected datasets. We have to notice that the selected
features depict the highest correlation with the remaining in every dataset,
thus, they can be adopted for dimensionality reduction. We focus on multiple
methodologies for having interpretability in our learning models and adopt an
ensemble scheme for the final decision. Our scheme is capable of timely
retrieving the final result and efficiently select the appropriate features. We
evaluate our model through extensive simulations and present numerical results.
Our aim is to reveal its performance under various experimental scenarios that
we create varying a set of parameters adopted in our mechanism.
- Abstract(参考訳): データ品質は、意思決定をサポートするために分析を要求するアプリケーションにとって重要な問題です。
多数のデバイスがデータ交換や処理を行うことができるIoT(Internet of Things)に注力する場合、それは非常に重要になります。
IoTデバイスは、収集されたデータを報告するためにエッジコンピューティング(EC)ノードに接続されているため、IoTだけでなく、ネットワークの端にもデータ品質を確保する必要があります。
本稿では,特定の問題に焦点をあて,解釈可能な機械学習を用いて,データ処理アクティビティをベースとした重要な機能を実現することを提案する。
当社の目標は、少なくとも収集したデータセットで重要と検出された機能に対して、データ品質を確保することです。
我々は、選択された特徴がデータセットの残りと最も高い相関関係を示していることに注意しなければならない。
学習モデルに解釈可能性を持たせるための複数の方法論に注目し,最終決定にアンサンブル方式を採用する。
提案手法では,最終結果のタイムリーな検索と,適切な特徴の選択が可能である。
広範なシミュレーションによりモデルを評価し, 数値実験を行った。
本研究の目的は, 様々な実験シナリオにおいて, その性能を明らかにすることであり, そのメカニズムで採用されるパラメータの集合を多様に生成することである。
関連論文リスト
- Speech Emotion Recognition under Resource Constraints with Data Distillation [64.36799373890916]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす。
モノのインターネットにおけるエッジデバイスの出現は、複雑なディープラーニングモデルを構築する上での課題を示している。
本研究では,IoTアプリケーションにおけるSERモデルの効率的な開発を容易にするためのデータ蒸留フレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-21T13:10:46Z) - Efficient Network Traffic Feature Sets for IoT Intrusion Detection [0.0]
この研究は、複数のIoTネットワークデータセットで、Information Gain、Chi-Squared Test、Recursive Feature Elimination、Mean Absolute Deviation、Dispersion Ratioといった、さまざまな機能選択メソッドの組み合わせによって提供される機能セットを評価します。
より小さな特徴セットがMLモデルの分類性能とトレーニング時間の両方に与える影響を比較し,IoT侵入検出の計算効率を高めることを目的とした。
論文 参考訳(メタデータ) (2024-06-12T09:51:29Z) - Energy-Efficient Edge Learning via Joint Data Deepening-and-Prefetching [9.468399367975984]
我々は、JD2P(Joint Data Deepening-and-Prefetching)と呼ばれる新しいオフロードアーキテクチャを提案する。
JD2Pは2つの主要な技術からなる機能ごとのオフロードである。
MNISTデータセットを用いてJD2Pの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-19T08:12:47Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Ensemble Learning based Anomaly Detection for IoT Cybersecurity via
Bayesian Hyperparameters Sensitivity Analysis [2.3226893628361682]
IoT(Internet of Things)は、世界中の何十億ものインテリジェントデバイスを統合し、他の接続デバイスと通信する機能を備えている。
IoTによって収集されたデータには、異常検出のための膨大な情報が含まれている。
本稿では,異常検出によるIoTサイバーセキュリティ向上のためのアンサンブル機械学習手法について検討する。
論文 参考訳(メタデータ) (2023-07-20T05:23:49Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - A Survey of Learning on Small Data: Generalization, Optimization, and
Challenge [101.27154181792567]
ビッグデータの一般化能力を近似した小さなデータについて学ぶことは、AIの究極の目的の1つである。
この調査はPACフレームワークの下でのアクティブサンプリング理論に従い、小さなデータにおける学習の一般化誤差とラベルの複雑さを分析した。
効率的な小さなデータ表現の恩恵を受けるかもしれない複数のデータアプリケーションについて調査する。
論文 参考訳(メタデータ) (2022-07-29T02:34:19Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z) - Federated Feature Selection for Cyber-Physical Systems of Systems [0.3609538870261841]
自動運転車の一群は、データ伝送を99%まで減らし、無視できない情報損失を抑えるために利用する、最適な機能セットに関するコンセンサスを見つける。
以上の結果から、自動運転車の車両群は、データ伝送を99%まで減らし、無視できる情報損失を減らし、最適な機能セットにコンセンサスを見出すことができた。
論文 参考訳(メタデータ) (2021-09-23T12:16:50Z) - Feature Extraction for Machine Learning-based Intrusion Detection in IoT
Networks [6.6147550436077776]
本稿では, 特徴量削減 (FR) と機械学習 (ML) の手法が, 様々なデータセットにまたがって一般化できるかどうかを明らかにすることを目的とする。
主成分分析(PCA)、自動エンコーダ(AE)、線形識別分析(LDA)の3つの特徴抽出(FE)アルゴリズムの検出精度を評価する。
論文 参考訳(メタデータ) (2021-08-28T23:52:18Z) - Diverse Complexity Measures for Dataset Curation in Self-driving [80.55417232642124]
トラフィックシーンの面白さを定量化する多様な基準を活用した新たなデータ選択手法を提案する。
実験の結果,提案するキュレーションパイプラインは,より汎用的で高いパフォーマンスをもたらすデータセットを選択できることが判明した。
論文 参考訳(メタデータ) (2021-01-16T23:45:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。