論文の概要: Analysis of Knowledge Tracing performance on synthesised student data
- arxiv url: http://arxiv.org/abs/2401.16832v1
- Date: Tue, 30 Jan 2024 09:19:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-31 15:43:17.652114
- Title: Analysis of Knowledge Tracing performance on synthesised student data
- Title(参考訳): 合成学生データを用いた知識追跡性能の解析
- Authors: Panagiotis Pagonis and Kai Hartung and Di Wu and Munir Georges and
S\"oren Gr\"ottrup
- Abstract要約: 知識追跡は,知識状態の発達を追跡することによって,学生の今後のパフォーマンスを予測することを目的としている。
この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。
私たちの研究は、学習に合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示しています。
- 参考スコア(独自算出の注目度): 3.9227982854973438
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Tracing (KT) aims to predict the future performance of students by
tracking the development of their knowledge states. Despite all the recent
progress made in this field, the application of KT models in education systems
is still restricted from the data perspectives: 1) limited access to real life
data due to data protection concerns, 2) lack of diversity in public datasets,
3) noises in benchmark datasets such as duplicate records. To resolve these
problems, we simulated student data with three statistical strategies based on
public datasets and tested their performance on two KT baselines. While we
observe only minor performance improvement with additional synthetic data, our
work shows that using only synthetic data for training can lead to similar
performance as real data.
- Abstract(参考訳): 知識トレース(kt)は,知識状態の発達を追跡することで,学生の将来のパフォーマンスを予測することを目的とする。
この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。
1)データ保護上の懸念による実生活データへのアクセス制限
2)公開データセットの多様性の欠如。
3) 重複レコードなどのベンチマークデータセットのノイズ。
これらの問題を解決するために,公開データセットに基づく3つの統計戦略を用いて学生データをシミュレーションし,その性能を2つのKTベースラインで検証した。
追加の合成データによるマイナーなパフォーマンス改善のみを観察したが、トレーニングに合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示した。
関連論文リスト
- LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。
本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。
合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文 参考訳(メタデータ) (2024-11-01T00:24:59Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - How Knowledge Distillation Mitigates the Synthetic Gap in Fair Face Recognition [0.0]
実際のデータセットでトレーニングされた教師モデルを考えると、慎重に合成データセットを利用すると驚くべき結果が得られます。
知識蒸留(KD)を使用すると、すべての民族でパフォーマンスが向上し、バイアスが減少する。
このアプローチは、合成データトレーニングの限界に対処し、顔認識モデルの正確性と公平性を改善する。
論文 参考訳(メタデータ) (2024-08-30T16:35:28Z) - FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。
FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。
本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文 参考訳(メタデータ) (2024-03-10T08:41:22Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - CTP: Towards Vision-Language Continual Pretraining via Compatible
Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。
VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。
独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文 参考訳(メタデータ) (2023-08-14T13:53:18Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Data-SUITE: Data-centric identification of in-distribution incongruous
examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。
我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文 参考訳(メタデータ) (2022-02-17T18:58:31Z) - Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。
合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文 参考訳(メタデータ) (2021-05-10T06:57:14Z) - Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。
以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文 参考訳(メタデータ) (2021-04-19T03:17:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。