論文の概要: Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation
- arxiv url: http://arxiv.org/abs/2112.15072v1
- Date: Thu, 30 Dec 2021 14:19:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-03 15:05:08.103356
- Title: Deep Learning Models for Knowledge Tracing: Review and Empirical
Evaluation
- Title(参考訳): 知識追跡のためのディープラーニングモデル:レビューと実証評価
- Authors: Sami Sarsa, Juho Leinonen, Arto Hellas
- Abstract要約: 我々は,オープンで広く利用されているデータセットを用いた深層学習知識追跡(DLKT)モデルをレビューし,評価する。
評価されたDLKTモデルは、以前報告した結果の再現性と評価のために再実装されている。
- 参考スコア(独自算出の注目度): 2.423547527175807
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we review and evaluate a body of deep learning knowledge
tracing (DLKT) models with openly available and widely-used data sets, and with
a novel data set of students learning to program. The evaluated DLKT models
have been reimplemented for assessing reproducibility and replicability of
previously reported results. We test different input and output layer
variations found in the compared models that are independent of the main
architectures of the models, and different maximum attempt count options that
have been implicitly and explicitly used in some studies. Several metrics are
used to reflect on the quality of the evaluated knowledge tracing models. The
evaluated knowledge tracing models include Vanilla-DKT, two Long Short-Term
Memory Deep Knowledge Tracing (LSTM-DKT) variants, two Dynamic Key-Value Memory
Network (DKVMN) variants, and Self-Attentive Knowledge Tracing (SAKT). We
evaluate logistic regression, Bayesian Knowledge Tracing (BKT) and simple
non-learning models as baselines. Our results suggest that the DLKT models in
general outperform non-DLKT models, and the relative differences between the
DLKT models are subtle and often vary between datasets. Our results also show
that naive models such as mean prediction can yield better performance than
more sophisticated knowledge tracing models, especially in terms of accuracy.
Further, our metric and hyperparameter analysis shows that the metric used to
select the best model hyperparameters has a noticeable effect on the
performance of the models, and that metric choice can affect model ranking. We
also study the impact of input and output layer variations, filtering out long
attempt sequences, and non-model properties such as randomness and hardware.
Finally, we discuss model performance replicability and related issues. Our
model implementations, evaluation code, and data are published as a part of
this work.
- Abstract(参考訳): 本研究では,オープンで広く利用されているデータセットと,プログラミングを学ぶ学生の新しいデータセットを用いて,ディープラーニング知識トレース(dlkt)モデルの体系をレビューし,評価する。
評価されたDLKTモデルを再現性と再現性の評価のために再実装した。
我々は,モデルの主要アーキテクチャとは独立な比較モデルにおける入力層と出力層のバリエーションをテストし,いくつかの研究で暗黙的かつ明示的に使用された最大試行回数オプションをテストした。
評価された知識追跡モデルの品質を反映するために、いくつかのメトリクスが使用される。
評価された知識追跡モデルには、Vanilla-DKT、Long Short-Term Memory Deep Knowledge Tracing (LSTM-DKT)、Dynamic Key-Value Memory Network (DKVMN)、Self-Attentive Knowledge Tracing (SAKT)などがある。
我々は,ロジスティック回帰,ベイズ知識追跡(BKT)および単純な非学習モデルをベースラインとして評価する。
以上の結果から,DLKTモデルは一般の非DLKTモデルよりも優れており,DLKTモデル間の相対的差異は微妙であり,データセット間でもしばしば異なることが示唆された。
また, 平均予測などのナイーブモデルにより, 特に精度の点で, 高度な知識追跡モデルよりも優れた性能が得られることを示した。
さらに, パラメータおよびハイパーパラメータ分析により, 最適モデルハイパーパラメータの選択に使用するメトリックが, モデルの性能に顕著な影響を及ぼし, パラメータ選択がモデルランキングに影響を及ぼすことを示した。
また,入力層と出力層の変動の影響,長い試行シーケンスのフィルタリング,ランダム性やハードウェアなどの非モデル特性についても検討した。
最後に、モデル性能の再現性と関連する問題について論じる。
私たちのモデル実装、評価コード、データは、この作業の一部として公開されています。
関連論文リスト
- Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Area under the ROC Curve has the Most Consistent Evaluation for Binary Classification [3.1850615666574806]
本研究は, 有病率の異なるデータ間でのモデル評価において, 測定値の整合性について検討する。
有病率の影響を受けない評価指標は、個々のモデルの一貫性のある評価と、モデルの集合の一貫性のあるランキングを提供する。
論文 参考訳(メタデータ) (2024-08-19T17:52:38Z) - The Importance of Model Inspection for Better Understanding Performance Characteristics of Graph Neural Networks [15.569758991934934]
脳形状分類タスクに適用したグラフニューラルネットワークの特徴学習特性に対するモデル選択の影響について検討する。
モデルの異なるレイヤに機能の埋め込みを組み込むことで、かなりの違いが見つかります。
論文 参考訳(メタデータ) (2024-05-02T13:26:18Z) - The Role of Model Architecture and Scale in Predicting Molecular Properties: Insights from Fine-Tuning RoBERTa, BART, and LLaMA [0.0]
本研究では,各種ケミノフォマティクスタスクの微調整におけるLarge Language Models(LLMs)の有効性を比較するための体系的枠組みを提案する。
分子特性を予測するために,RoBERTa,BART,LLaMAの3つのモデルを評価した。
LLaMAベースのモデルは、一般的に最低限のバリデーション損失を提供しており、タスクやスケールの順応性が優れていることを示唆している。
論文 参考訳(メタデータ) (2024-05-02T02:20:12Z) - QualEval: Qualitative Evaluation for Model Improvement [82.73561470966658]
モデル改善のための手段として,自動定性評価による定量的スカラー指標を付加するQualEvalを提案する。
QualEvalは強力なLCM推論器と新しいフレキシブルリニアプログラミングソルバを使用して、人間の読みやすい洞察を生成する。
例えば、その洞察を活用することで、Llama 2モデルの絶対性能が最大15%向上することを示す。
論文 参考訳(メタデータ) (2023-11-06T00:21:44Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - A prediction and behavioural analysis of machine learning methods for
modelling travel mode choice [0.26249027950824505]
我々は、モデル選択に影響を及ぼす可能性のある重要な要因の観点から、複数のモデリング問題に対して異なるモデリングアプローチを体系的に比較する。
その結果,非凝集性予測性能が最も高いモデルでは,行動指標やアグリゲーションモードのシェアが低下することが示唆された。
MNLモデルは様々な状況において堅牢に機能するが、ML手法はWillingness to Payのような行動指標の推定を改善することができる。
論文 参考訳(メタデータ) (2023-01-11T11:10:32Z) - Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。
これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。
パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文 参考訳(メタデータ) (2022-12-19T20:46:43Z) - An Empirical Study of Deep Learning Models for Vulnerability Detection [4.243592852049963]
我々は、広く使われている2つの脆弱性検出データセット上で、最先端の9つのディープラーニングモデルを調査し、再現した。
モデル能力,トレーニングデータ,モデル解釈について検討した。
我々の研究結果は、モデル結果の理解を深め、トレーニングデータ作成のガイダンスを提供し、モデルの堅牢性を向上させるのに役立つ。
論文 参考訳(メタデータ) (2022-12-15T19:49:34Z) - Comparing Test Sets with Item Response Theory [53.755064720563]
我々は,18の事前学習トランスフォーマーモデルから予測した29のデータセットを個別のテスト例で評価した。
Quoref、HellaSwag、MC-TACOは最先端のモデルを区別するのに最適である。
また、QAMRやSQuAD2.0のようなQAデータセットに使用されるスパン選択タスク形式は、強いモデルと弱いモデルとの差別化に有効である。
論文 参考訳(メタデータ) (2021-06-01T22:33:53Z) - Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。
本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。
次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文 参考訳(メタデータ) (2020-10-25T18:51:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。