論文の概要: Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE
- arxiv url: http://arxiv.org/abs/2602.17314v1
- Date: Thu, 19 Feb 2026 12:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-20 15:21:29.024649
- Title: Open Datasets in Learning Analytics: Trends, Challenges, and Best PRACTICE
- Title(参考訳): 学習分析におけるオープンデータセット - トレンド,課題,ベストプラクティス
- Authors: Valdemar Švábenský, Brendan Flanagan, Erwin Daniel López Zapata, Atsushi Shimada,
- Abstract要約: オープンデータセットは、学習分析、教育データマイニング、教育における人工知能という3つの研究領域において重要な役割を果たす。
研究論文とともにオープンデータセットの提供は、研究成果のサポート、コラボレーション、信頼を提供する。
これらの利点にもかかわらず、学習分析研究コミュニティ、特に彼らの旗艦カンファレンス会場で、オープンデータセットと関連するプラクティスが利用可能であることは、いまだ不明である。
- 参考スコア(独自算出の注目度): 0.4666493857924357
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Open datasets play a crucial role in three research domains that intersect data science and education: learning analytics, educational data mining, and artificial intelligence in education. Researchers in these domains apply computational methods to analyze data from educational contexts, aiming to better understand and improve teaching and learning. Providing open datasets alongside research papers supports reproducibility, collaboration, and trust in research findings. It also provides individual benefits for authors, such as greater visibility, credibility, and citation potential. Despite these advantages, the availability of open datasets and the associated practices within the learning analytics research communities, especially at their flagship conference venues, remain unclear. We surveyed available datasets published alongside research papers in learning analytics. We manually examined 1,125 papers from three flagship conferences (LAK, EDM, and AIED) over the past five years. We discovered, categorized, and analyzed 172 datasets used in 204 publications. Our study presents the most comprehensive collection and analysis of open educational datasets to date, along with the most detailed categorization. Of the 172 datasets identified, 143 were not captured in any prior survey of open data in learning analytics. We provide insights into the datasets' context, analytical methods, use, and other properties. Based on this survey, we summarize the current gaps in the field. Furthermore, we list practical recommendations, advice, and 8-item guidelines under the acronym PRACTICE with a checklist to help researchers publish their data. Lastly, we share our original dataset: an annotated inventory detailing the discovered datasets and the corresponding publications. We hope these findings will support further adoption of open data practices in learning analytics communities and beyond.
- Abstract(参考訳): オープンデータセットは、学習分析、教育データマイニング、教育における人工知能という3つの研究領域において重要な役割を果たす。
これらの領域の研究者は、教育の文脈からデータを分析し、教育と学習をよりよく理解し改善することを目的として、計算手法を適用している。
研究論文と共にオープンデータセットを提供することは、再現性、コラボレーション、研究結果への信頼をサポートする。
また、より深い可視性、信頼性、引用可能性など、著者に個別の利点を提供する。
これらの利点にもかかわらず、オープンデータセットの可用性と学習分析研究コミュニティ内の関連するプラクティス、特に彼らの旗艦カンファレンス会場では、不明なままである。
学習分析の研究論文とともに、利用可能なデータセットを調査した。
過去5年間に3つのフラッグシップカンファレンス(LAK、EDM、AIED)から1,125の論文を手作業で調査した。
我々は、204の出版物で使用される172のデータセットを発見し、分類し、分析した。
本研究は,これまでのオープン教育データセットの包括的収集と分析と,最も詳細な分類について述べる。
識別された172のデータセットのうち、143は、学習分析におけるオープンデータの以前の調査ではキャプチャされなかった。
データセットのコンテキスト、分析方法、使用方法、その他の特性に関する洞察を提供する。
この調査に基づいて、この分野における現在のギャップを概観する。
さらに,実践的な勧告やアドバイス,8項目のガイドラインをPRACTICEという頭字語でリストアップし,研究者がデータを公開するためのチェックリストを作成している。
最後に、発見されたデータセットとそれに対応するパブリッシュを詳述した注釈付きインベントリを共有します。
これらの発見が、アナリティクスコミュニティなどにおけるオープンデータプラクティスのさらなる採用を支援することを願っています。
関連論文リスト
- OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - A Comprehensive Survey on Imbalanced Data Learning [56.65067795190842]
不均衡なデータは、さまざまな種類の生データに広まっており、機械学習のパフォーマンスを妨げる。
本調査は,様々な実世界のデータ形式を体系的に分析する。
さまざまなデータフォーマットに関する既存の研究は、データ再バランス、特徴表現、トレーニング戦略、アンサンブル学習の4つのカテゴリにまとめられている。
論文 参考訳(メタデータ) (2025-02-13T04:53:17Z) - Insights from Publishing Open Data in Industry-Academia Collaboration [3.458783333044753]
本稿では,オープンデータセットの公開から学んだモチベーションと教訓について考察する。
13のデータセットを公開している欧州の研究プロジェクトの参加者を調査した。
データ収集の計画が不可欠であること、そして再利用を改善するためのスクリプトに付随するデータセットはごくわずかであることがわかった。
論文 参考訳(メタデータ) (2025-01-24T07:30:46Z) - The State of Data Curation at NeurIPS: An Assessment of Dataset Development Practices in the Datasets and Benchmarks Track [1.5993707490601146]
この研究は、データキュレーションのレンズを通してNeurIPSにおけるデータセット開発プラクティスの分析を提供する。
本稿では,ルーブリックとツールキットからなるデータセットドキュメンテーションの評価フレームワークを提案する。
結果は、環境のフットプリント、倫理的考慮、データ管理に関するドキュメントの必要性がさらに高まっていることを示している。
論文 参考訳(メタデータ) (2024-10-29T19:07:50Z) - SciER: An Entity and Relation Extraction Dataset for Datasets, Methods, and Tasks in Scientific Documents [49.54155332262579]
我々は,科学論文のデータセット,メソッド,タスクに関連するエンティティに対して,新たなエンティティと関係抽出データセットをリリースする。
我々のデータセットには、24k以上のエンティティと12kの関係を持つ106の注釈付きフルテキストの科学出版物が含まれています。
論文 参考訳(メタデータ) (2024-10-28T15:56:49Z) - Data-Centric AI in the Age of Large Language Models [51.20451986068925]
本稿では,大規模言語モデル(LLM)に着目した,AI研究におけるデータ中心の視点を提案する。
本研究では,LLMの発達段階(事前学習や微調整など)や推論段階(文脈内学習など)において,データが有効であることを示す。
データを中心とした4つのシナリオを特定し、データ中心のベンチマークとデータキュレーション、データ属性、知識伝達、推論コンテキスト化をカバーします。
論文 参考訳(メタデータ) (2024-06-20T16:34:07Z) - Navigating Dataset Documentations in AI: A Large-Scale Analysis of
Dataset Cards on Hugging Face [46.60562029098208]
私たちはHugging Faceで7,433のデータセットドキュメントを分析します。
本研究は,大規模データサイエンス分析によるデータセットの文書化に関するユニークな視点を提供する。
論文 参考訳(メタデータ) (2024-01-24T21:47:13Z) - CoCon: A Data Set on Combined Contextualized Research Artifact Use [0.0]
CoConは学術出版物の全文に研究成果物の組み合わせを反映した大規模な学術データセットである。
データセットは35kのアーティファクト(データセット、メソッド、モデル、タスク)と340kのパブリッシュで構成されています。
我々は,「総合研究成果物利用予測」のためのリンク予測タスクを形式化し,データに基づくMLアプリケーションの解析と開発を利用するためのコードを提供する。
論文 参考訳(メタデータ) (2023-03-27T13:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。