論文の概要: Accuracy analysis of Educational Data Mining using Feature Selection
Algorithm
- arxiv url: http://arxiv.org/abs/2107.10669v1
- Date: Wed, 21 Jul 2021 01:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 15:22:11.228257
- Title: Accuracy analysis of Educational Data Mining using Feature Selection
Algorithm
- Title(参考訳): 特徴選択アルゴリズムを用いた教育データマイニングの精度解析
- Authors: Ali Almalki, Pawel Wocjan
- Abstract要約: データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。
教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract - Gathering relevant information to predict student academic
progress is a tedious task. Due to the large amount of irrelevant data present
in databases which provides inaccurate results. Currently, it is not possible
to accurately measure and analyze student data because there are too many
irrelevant attributes and features in the data. With the help of Educational
Data Mining (EDM), the quality of information can be improved. This research
demonstrates how EDM helps to measure the accuracy of data using relevant
attributes and machine learning algorithms performed. With EDM, irrelevant
features are removed without changing the original data. The data set used in
this study was taken from Kaggle.com. The results compared on the basis of
recall, precision and f-measure to check the accuracy of the student data. The
importance of this research is to help improve the quality of educational
research by providing more accurate results for researchers.
- Abstract(参考訳): 要約 - 学生の学業進捗を予測するために関連する情報を集めるのは面倒な作業です。
不正確な結果を提供するデータベースに存在する大量の無関係なデータのために。
現在、データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。
教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。
本研究は、EDMが関連する属性と機械学習アルゴリズムを用いてデータの精度を測定する方法を示す。
EDMでは、元のデータを変更することなく、無関係な機能は削除される。
本研究で使用したデータセットはkaggle.comから取得した。
その結果,学生データの正確性を確認するために,リコール,精度,f-測定に基づいて比較した。
この研究の重要性は、研究者により正確な結果を提供することで、教育研究の質を向上させることである。
関連論文リスト
- Data Proportion Detection for Optimized Data Management for Large Language Models [32.62631669919273]
我々は,事前学習データの割合の自動推定を可能にする新しいトピック,textitdata proportion Detectionを導入する。
データ比例検出のための厳密な理論的証明、実用的なアルゴリズム、予備実験結果を提供する。
論文 参考訳(メタデータ) (2024-09-26T04:30:32Z) - Can We Enhance the Quality of Mobile Crowdsensing Data Without Ground Truth? [45.875832406278214]
本稿では,予測と評価に基づく真理発見フレームワークを提案する。
センシングタスクにおいて、低品質のデータを高品質のデータから分離することができる。
これは、識別精度とデータ品質向上の観点から、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2024-05-29T03:16:12Z) - Machine Learning Techniques for Sensor-based Human Activity Recognition with Data Heterogeneity -- A Review [0.8142555609235358]
HAR(Human Activity Recognition)はユビキタスコンピューティングにおいて重要である。
HARは特にデータ分散の仮定において、課題に直面します。
本稿では,機械学習がHARにおけるデータの不均一性にどのように対処するかを検討する。
論文 参考訳(メタデータ) (2024-03-12T22:22:14Z) - LESS: Selecting Influential Data for Targeted Instruction Tuning [64.78894228923619]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and Regulatory Norms [56.119374302685934]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - On the impact of dataset size and class imbalance in evaluating
machine-learning-based windows malware detection techniques [0.0]
一部の研究者は、より小さなデータセットを使用し、データセットのサイズがパフォーマンスに重大な影響を与えている場合、公表された結果の比較が困難になる。
このプロジェクトは、データセットのサイズが測定された検出器の性能と関係しているかどうかを理解するために、2つの重要な目標を特定した。
結果は、高い精度のスコアが必ずしも高い実世界のパフォーマンスに必ずしも変換されないことを示唆した。
論文 参考訳(メタデータ) (2022-06-13T15:37:31Z) - Data Curation and Quality Assurance for Machine Learning-based Cyber
Intrusion Detection [1.0276024900942873]
本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。
実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。
そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
論文 参考訳(メタデータ) (2021-05-20T21:31:46Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。