論文の概要: Analysis of Knowledge Tracing performance on synthesised student data
- arxiv url: http://arxiv.org/abs/2401.16832v1
- Date: Tue, 30 Jan 2024 09:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 15:43:17.652114
- Title: Analysis of Knowledge Tracing performance on synthesised student data
- Title(参考訳): 合成学生データを用いた知識追跡性能の解析
- Authors: Panagiotis Pagonis and Kai Hartung and Di Wu and Munir Georges and
S\"oren Gr\"ottrup
- Abstract要約: 知識追跡は,知識状態の発達を追跡することによって,学生の今後のパフォーマンスを予測することを目的としている。
この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。
私たちの研究は、学習に合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示しています。
- 参考スコア(独自算出の注目度): 3.9227982854973438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Tracing (KT) aims to predict the future performance of students by
tracking the development of their knowledge states. Despite all the recent
progress made in this field, the application of KT models in education systems
is still restricted from the data perspectives: 1) limited access to real life
data due to data protection concerns, 2) lack of diversity in public datasets,
3) noises in benchmark datasets such as duplicate records. To resolve these
problems, we simulated student data with three statistical strategies based on
public datasets and tested their performance on two KT baselines. While we
observe only minor performance improvement with additional synthetic data, our
work shows that using only synthetic data for training can lead to similar
performance as real data.
- Abstract(参考訳): 知識トレース(kt)は,知識状態の発達を追跡することで,学生の将来のパフォーマンスを予測することを目的とする。
この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。
1)データ保護上の懸念による実生活データへのアクセス制限
2)公開データセットの多様性の欠如。
3) 重複レコードなどのベンチマークデータセットのノイズ。
これらの問題を解決するために,公開データセットに基づく3つの統計戦略を用いて学生データをシミュレーションし,その性能を2つのKTベースラインで検証した。
追加の合成データによるマイナーなパフォーマンス改善のみを観察したが、トレーニングに合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示した。
関連論文リスト
- Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - LargeST: A Benchmark Dataset for Large-Scale Traffic Forecasting [65.71129509623587]
道路交通予測はスマートシティのイニシアチブにおいて重要な役割を担い、ディープラーニングの力によって大きな進歩を遂げている。
しかし、現在の公開データセットで達成される有望な結果は、現実的なシナリオには適用できないかもしれない。
カリフォルニアで合計8,600のセンサーと5年間の時間カバレッジを含む、LargeSTベンチマークデータセットを紹介します。
論文 参考訳(メタデータ) (2023-06-14T05:48:36Z) - Bridging the Gap: Enhancing the Utility of Synthetic Data via
Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。
本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。
Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文 参考訳(メタデータ) (2023-05-17T10:50:38Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z) - Towards Realistic Single-Task Continuous Learning Research for NER [19.61159414320659]
本稿では、公開データセットの非現実的なデータ特性について論じ、現実的な単一タスク連続学習の課題について考察する。
我々は、既存の公開データセットからCL NERデータセットを構築し、コードとともに研究コミュニティにリリースする。
論文 参考訳(メタデータ) (2021-10-27T18:23:31Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。
以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文 参考訳(メタデータ) (2021-04-19T03:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。