Fugu-MT 論文翻訳(概要): Analysis of Knowledge Tracing performance on synthesised student data

論文の概要: Analysis of Knowledge Tracing performance on synthesised student data

arxiv url: http://arxiv.org/abs/2401.16832v1
Date: Tue, 30 Jan 2024 09:19:50 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-31 15:43:17.652114
Title: Analysis of Knowledge Tracing performance on synthesised student data
Title（参考訳）: 合成学生データを用いた知識追跡性能の解析
Authors: Panagiotis Pagonis and Kai Hartung and Di Wu and Munir Georges and S\"oren Gr\"ottrup
Abstract要約: 知識追跡は,知識状態の発達を追跡することによって,学生の今後のパフォーマンスを予測することを目的としている。この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。私たちの研究は、学習に合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示しています。
参考スコア（独自算出の注目度）: 3.9227982854973438
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge Tracing (KT) aims to predict the future performance of students by tracking the development of their knowledge states. Despite all the recent progress made in this field, the application of KT models in education systems is still restricted from the data perspectives: 1) limited access to real life data due to data protection concerns, 2) lack of diversity in public datasets, 3) noises in benchmark datasets such as duplicate records. To resolve these problems, we simulated student data with three statistical strategies based on public datasets and tested their performance on two KT baselines. While we observe only minor performance improvement with additional synthetic data, our work shows that using only synthetic data for training can lead to similar performance as real data.
Abstract（参考訳）: 知識トレース(kt)は,知識状態の発達を追跡することで,学生の将来のパフォーマンスを予測することを目的とする。この分野での最近の進歩にもかかわらず、教育システムにおけるKTモデルの適用は、今でもデータの観点から制限されている。 1)データ保護上の懸念による実生活データへのアクセス制限 2)公開データセットの多様性の欠如。 3) 重複レコードなどのベンチマークデータセットのノイズ。これらの問題を解決するために,公開データセットに基づく3つの統計戦略を用いて学生データをシミュレーションし,その性能を2つのKTベースラインで検証した。追加の合成データによるマイナーなパフォーマンス改善のみを観察したが、トレーニングに合成データのみを使用することで、実際のデータと同じようなパフォーマンスが得られることを示した。

関連論文リスト

SynQuE: Estimating Synthetic Dataset Quality Without Annotations [6.628608274494256]
我々は,限定的な注釈付き実データのみを用いて,予測された実世界のタスク性能によって,合成データセットのランク付けの問題を定式化する。実データ上でのタスクパフォーマンスを最大化するために、トレーニング用の合成データを選択するプロキシメトリクスを導入することで、この問題に対する最初の包括的なベンチマークを確立する。以上の結果から,SynQuEプロキシは感情分析,テキスト2ナビゲーション,Webナビゲーション,画像分類など,さまざまなタスクにおける実際のタスクパフォーマンスと相関していることがわかった。
論文参考訳（メタデータ） (2025-11-06T00:09:33Z)
Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
DASKT: A Dynamic Affect Simulation Method for Knowledge Tracing [51.665582274736785]
KT(Knowledge Tracing)は,学生の履歴計算によって将来のパフォーマンスを予測し,学生の感情状態を理解することで,KTの有効性を高めることができる。本研究では,学生の感情状態が知識状態に与える影響を調べるために,DASKT(Affect Dynamic Knowledge Tracing)を提案する。我々の研究は、高い解釈可能性と精度の実現に焦点をあてて、今後の研究への有望な道のりを強調している。
論文参考訳（メタデータ） (2025-01-18T10:02:10Z)
LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文参考訳（メタデータ） (2024-11-01T00:24:59Z)
How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-10-04T13:39:21Z)
How Knowledge Distillation Mitigates the Synthetic Gap in Fair Face Recognition [0.0]
実際のデータセットでトレーニングされた教師モデルを考えると、慎重に合成データセットを利用すると驚くべき結果が得られます。知識蒸留(KD)を使用すると、すべての民族でパフォーマンスが向上し、バイアスが減少する。このアプローチは、合成データトレーニングの限界に対処し、顔認識モデルの正確性と公平性を改善する。
論文参考訳（メタデータ） (2024-08-30T16:35:28Z)
FewFedPIT: Towards Privacy-preserving and Few-shot Federated Instruction Tuning [54.26614091429253]
フェデレーション・インストラクション・チューニング(FedIT)は、複数のデータ所有者間で協調的なトレーニングを統合することで、有望なソリューションである。 FedITは、インストラクショナルデータの不足や、トレーニングデータ抽出攻撃への露出リスクなどの制限に直面している。本稿では,FewFedPITを提案する。このFewFedPITは,フェデレートされた数ショット学習のプライバシー保護とモデル性能を同時に向上する。
論文参考訳（メタデータ） (2024-03-10T08:41:22Z)
Assessment of Differentially Private Synthetic Data for Utility and Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文参考訳（メタデータ） (2023-10-30T03:37:16Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
CTP: Towards Vision-Language Continual Pretraining via Compatible Momentum Contrast and Topology Preservation [128.00940554196976]
Vision-Language Continual Pretraining (VLCP)は、大規模なデータセット上でオフラインでトレーニングすることで、さまざまな下流タスクに対して印象的な結果を示している。 VLCP(Vision-Language Continual Pretraining)の研究を支援するために,我々はまず,包括的で統一されたベンチマークデータセットP9Dをコントリビュートする。独立したタスクとしての各業界からのデータは、継続的な学習をサポートし、Webデータの事前学習をシミュレートする現実世界のロングテールな性質に準拠している。
論文参考訳（メタデータ） (2023-08-14T13:53:18Z)
TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文参考訳（メタデータ） (2022-08-16T20:46:08Z)
Data-SUITE: Data-centric identification of in-distribution incongruous examples [81.21462458089142]
Data-SUITEは、ID(In-distriion)データの不連続領域を特定するためのデータ中心のフレームワークである。我々は,Data-SUITEの性能保証とカバレッジ保証を実証的に検証する。
論文参考訳（メタデータ） (2022-02-17T18:58:31Z)
Transitioning from Real to Synthetic data: Quantifying the bias in model [1.6134566438137665]
本研究では,合成データを用いたモデルにおけるバイアスと公平性のトレードオフを確立することを目的とする。合成データを用いて訓練したモデルには、様々なレベルのバイアスの影響があることを実証する。
論文参考訳（メタデータ） (2021-05-10T06:57:14Z)
Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文参考訳（メタデータ） (2021-04-19T03:17:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。