論文の概要: Accuracy analysis of Educational Data Mining using Feature Selection
Algorithm
- arxiv url: http://arxiv.org/abs/2107.10669v1
- Date: Wed, 21 Jul 2021 01:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-23 15:22:11.228257
- Title: Accuracy analysis of Educational Data Mining using Feature Selection
Algorithm
- Title(参考訳): 特徴選択アルゴリズムを用いた教育データマイニングの精度解析
- Authors: Ali Almalki, Pawel Wocjan
- Abstract要約: データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。
教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。
- 参考スコア(独自算出の注目度): 0.5076419064097732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Abstract - Gathering relevant information to predict student academic
progress is a tedious task. Due to the large amount of irrelevant data present
in databases which provides inaccurate results. Currently, it is not possible
to accurately measure and analyze student data because there are too many
irrelevant attributes and features in the data. With the help of Educational
Data Mining (EDM), the quality of information can be improved. This research
demonstrates how EDM helps to measure the accuracy of data using relevant
attributes and machine learning algorithms performed. With EDM, irrelevant
features are removed without changing the original data. The data set used in
this study was taken from Kaggle.com. The results compared on the basis of
recall, precision and f-measure to check the accuracy of the student data. The
importance of this research is to help improve the quality of educational
research by providing more accurate results for researchers.
- Abstract(参考訳): 要約 - 学生の学業進捗を予測するために関連する情報を集めるのは面倒な作業です。
不正確な結果を提供するデータベースに存在する大量の無関係なデータのために。
現在、データには無関係な属性や特徴が多すぎるため、学生データを正確に測定し分析することは不可能である。
教育データマイニング(EDM)の助けを借りて、情報の質を向上させることができる。
本研究は、EDMが関連する属性と機械学習アルゴリズムを用いてデータの精度を測定する方法を示す。
EDMでは、元のデータを変更することなく、無関係な機能は削除される。
本研究で使用したデータセットはkaggle.comから取得した。
その結果,学生データの正確性を確認するために,リコール,精度,f-測定に基づいて比較した。
この研究の重要性は、研究者により正確な結果を提供することで、教育研究の質を向上させることである。
関連論文リスト
- LESS: Selecting Influential Data for Targeted Instruction Tuning [69.50855460630105]
本稿では,データの影響を推定し,命令データ選択のための低ランクグレーディエント類似度探索を行うアルゴリズムであるLESSを提案する。
LESS選択したデータの5%のトレーニングは、さまざまなダウンストリームタスクにわたる完全なデータセットでのトレーニングよりも優れています。
我々の方法は、意図した下流アプリケーションに必要な推論スキルを識別するために、表面的なフォームキューを超えています。
論文 参考訳(メタデータ) (2024-02-06T19:18:04Z) - Data-Effective Learning: A Comprehensive Medical Benchmark [16.04573678594975]
データ効率のよい学習は、AIモデルをトレーニングするための最も影響力のある方法でデータを使用することを目的としている。
標準の欠如と総合的なベンチマークのため、医療データ有効学習の研究は不十分である。
このベンチマークには、31の医療センターから数百万のデータサンプルを含むデータセットが含まれている。
論文 参考訳(メタデータ) (2024-01-31T02:09:21Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - Utility Assessment of Synthetic Data Generation Methods [0.0]
完全合成データを生成する方法が,その実用性に相違があるかどうかを考察する。
ボード上の他の方法よりもパフォーマンスがよい方法がいくつかあります。
機械学習モデルのトレーニングに合成データを使用する場合、分類タスクに対して有望な結果が得られる。
論文 参考訳(メタデータ) (2022-11-23T11:09:52Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - How Much More Data Do I Need? Estimating Requirements for Downstream
Tasks [99.44608160188905]
小さなトレーニングデータセットと学習アルゴリズムがあれば、ターゲットの検証やテストのパフォーマンスに到達するのに、どれくらいのデータが必要か?
データ要求を過大評価または過小評価すると、十分な予算で回避できる相当なコストが発生する。
本ガイドラインを用いることで,機械学習システムのデータ要求を正確に推定し,開発時間とデータ取得コストの双方で節約することができる。
論文 参考訳(メタデータ) (2022-07-04T21:16:05Z) - On the impact of dataset size and class imbalance in evaluating
machine-learning-based windows malware detection techniques [0.0]
一部の研究者は、より小さなデータセットを使用し、データセットのサイズがパフォーマンスに重大な影響を与えている場合、公表された結果の比較が困難になる。
このプロジェクトは、データセットのサイズが測定された検出器の性能と関係しているかどうかを理解するために、2つの重要な目標を特定した。
結果は、高い精度のスコアが必ずしも高い実世界のパフォーマンスに必ずしも変換されないことを示唆した。
論文 参考訳(メタデータ) (2022-06-13T15:37:31Z) - Core-set Selection Using Metrics-based Explanations (CSUME) for
multiclass ECG [2.0520503083305073]
高品質なデータを選択することで、ディープラーニングモデルの性能が向上することを示す。
実験の結果,9.67%,8.69%の精度とリコール改善が得られた。
論文 参考訳(メタデータ) (2022-05-28T19:36:28Z) - Data Curation and Quality Assurance for Machine Learning-based Cyber
Intrusion Detection [1.0276024900942873]
本稿では、まず、既存の機械学習ベースの侵入検知システムと、これらのシステム構築に使用されるデータセットを要約する。
実験結果から,BERT と GPT がすべてのデータセット上で HIDS に最適なアルゴリズムであることが示唆された。
そこで本論文では, HIDSデータセットが持つべき最高の特性を推定するために, 提案した品質次元に基づいて, 11データセットのデータ品質を評価する。
論文 参考訳(メタデータ) (2021-05-20T21:31:46Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。