論文の概要: The competent Computational Thinking test (cCTt): a valid, reliable and gender-fair test for longitudinal CT studies in grades 3-6
- arxiv url: http://arxiv.org/abs/2305.19526v2
- Date: Mon, 5 Aug 2024 17:02:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-07 00:35:17.066063
- Title: The competent Computational Thinking test (cCTt): a valid, reliable and gender-fair test for longitudinal CT studies in grades 3-6
- Title(参考訳): 有能なコンピュータ思考テスト(cCTt) : 3~6年生の縦断CT研究における妥当性,信頼性,ジェンダーフェアテスト
- Authors: Laila El-Hamamsy, María Zapata-Cáceres, Estefanía Martín-Barroso, Francesco Mondada, Jessica Dehler Zufferey, Barbara Bruno, Marcos Román-González,
- Abstract要約: 本研究では,2709人の生徒のデータを用いて,3年生から6年生(年齢7~11歳)までの学習を確実に評価できるかどうかを検討した。
以上の結果から,cCTtは学年3-6では有効で信頼性が高く,ジェンダーフェアであり,より複雑な項目は学年5-6では有益であることが示唆された。
- 参考スコア(独自算出の注目度): 0.06282171844772422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The introduction of computing education into curricula worldwide requires multi-year assessments to evaluate the long-term impact on learning. However, no single Computational Thinking (CT) assessment spans primary school, and no group of CT assessments provides a means of transitioning between instruments. This study therefore investigated whether the competent CT test (cCTt) could evaluate learning reliably from grades 3 to 6 (ages 7-11) using data from 2709 students. The psychometric analysis employed Classical Test Theory, Item Response Theory, Measurement Invariance analyses which include Differential Item Functioning, normalised z-scoring, and PISA's methodology to establish proficiency levels. The findings indicate that the cCTt is valid, reliable and gender-fair for grades 3-6, although more complex items would be beneficial for grades 5-6. Grade-specific proficiency levels are provided to help tailor interventions, with a normalised scoring system to compare students across and between grades, and help establish transitions between instruments. To improve the utility of CT assessments among researchers, educators and practitioners, the findings emphasise the importance of i) developing and validating gender-fair, grade-specific, instruments aligned with students' cognitive maturation, and providing ii) proficiency levels, and iii) equivalency scales to transition between assessments. To conclude, the study provides insight into the design of longitudinal developmentally appropriate assessments and interventions.
- Abstract(参考訳): 世界中のカリキュラムにコンピューティング教育を導入するには、学習に対する長期的な影響を評価するために、多年にわたる評価が必要である。
しかし、1つのCT評価は小学校に限らず、CT評価のグループは楽器間の遷移手段を提供していない。
そこで本研究では,2709名の学生のデータを用いて,3年生から6年生(年齢7~11歳)までの学習を確実に評価できるかどうかを検討した。
心理計量分析では、古典的テスト理論、項目応答理論、異なる項目機能、正規化されたz-scoring、PISAの習熟度を確立する方法論を含む測定不変性分析を取り入れた。
以上の結果から,cCTtは学年3-6では有効で信頼性が高く,ジェンダーフェアであり,より複雑な項目は学年5-6では有益であることが示唆された。
グレード固有の習熟度は、介入の調整を助けるために提供され、正規化されたスコアシステムにより、グレード間の学生を比較し、楽器間の遷移を確立するのに役立つ。
研究者,教育者,実践者におけるCTアセスメントの有用性を高めるために,本研究の意義を強調した。
一 生徒の認知成熟と整合したジェンダーフェア、等級特化器を開発し、検証し、提供すること。
二 熟練度及び熟練度
三 評価間の推移に対する等価度尺度
結論として, 縦断的発達的評価と介入の設計について考察した。
関連論文リスト
- NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - CTBench: A Comprehensive Benchmark for Evaluating Language Model Capabilities in Clinical Trial Design [15.2100541345819]
CTBenchは、臨床研究設計を支援するために言語モデル(LM)を評価するベンチマークとして導入された。
このデータセットは、2つのデータセットで構成されている: "CT-Repo" は、臨床試験.govから得られた1,690の臨床試験のベースライン特徴を含み、"CT-Pub"は、関連する出版物から集められたより包括的なベースライン特徴を持つ100の試験のサブセットである。
論文 参考訳(メタデータ) (2024-06-25T18:52:48Z) - Wearable Device-Based Real-Time Monitoring of Physiological Signals: Evaluating Cognitive Load Across Different Tasks [6.673424334358673]
本研究は,中等教育学生の脳波(EEG)データに対する認知負荷評価を行うために,最先端のウェアラブルモニタリング技術を用いている。
この研究は、中等教育学生の認知負荷を評価するための応用価値と、様々な課題にまたがる有用性について考察した。
論文 参考訳(メタデータ) (2024-06-11T10:48:26Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - Survey of Computerized Adaptive Testing: A Machine Learning Perspective [66.26687542572974]
コンピュータ適応テスト (Computerized Adaptive Testing, CAT) は、試験の熟練度を評価するための効率的で調整された方法である。
本稿では,この適応テスト手法に対する新たな視点を提示し,機械学習に着目したCATに関する調査を行うことを目的とする。
論文 参考訳(メタデータ) (2024-03-31T15:09:47Z) - Analyzing-Evaluating-Creating: Assessing Computational Thinking and Problem Solving in Visual Programming Domains [21.14335914575035]
コンピュータ思考(CT)と問題解決のスキルは、世界中のK-8スクールカリキュラムに統合されつつある。
我々はブルームの分類学における3つの高い認知レベルに焦点を当てた新しいテストであるACEを開発した。
学年3~7年生371名を対象に,ACEの心理測定特性について検討した。
論文 参考訳(メタデータ) (2024-03-18T20:18:34Z) - AutoTrial: Prompting Language Models for Clinical Trial Design [53.630479619856516]
本稿では,言語モデルを用いた臨床検査基準の設計を支援するAutoTrialという手法を提案する。
70K以上の臨床試験で、AutoTrialが高品質な基準テキストを生成することが確認された。
論文 参考訳(メタデータ) (2023-05-19T01:04:16Z) - Learning to diagnose cirrhosis from radiological and histological labels
with joint self and weakly-supervised pretraining strategies [62.840338941861134]
そこで本稿では, 放射線学者が注釈付けした大規模データセットからの転写学習を活用して, 小さい付加データセットで利用できる組織学的スコアを予測することを提案する。
我々は,肝硬変の予測を改善するために,異なる事前訓練法,すなわち弱い指導法と自己指導法を比較した。
この方法は、METAVIRスコアのベースライン分類を上回り、AUCが0.84、バランスの取れた精度が0.75に達する。
論文 参考訳(メタデータ) (2023-02-16T17:06:23Z) - The competent Computational Thinking test (cCTt): Development and
validation of an unplugged Computational Thinking test for upper primary
school [0.8367620276482053]
対象は7~9歳の学生を対象にしたCT検査である。
専門家による評価の結果,cCTtは顔,構成,内容の妥当性が良好であることが示唆された。
学生データの心理測定分析は、十分な信頼性、難易度、識別可能性を示す。
論文 参考訳(メタデータ) (2022-03-11T15:05:35Z) - Opportunities of a Machine Learning-based Decision Support System for
Stroke Rehabilitation Assessment [64.52563354823711]
リハビリテーションアセスメントは、患者の適切な介入を決定するために重要である。
現在の評価の実践は、主にセラピストの経験に依存しており、セラピストの可用性が限られているため、アセスメントは頻繁に実施される。
我々は、強化学習を用いて評価の健全な特徴を識別できるインテリジェントな意思決定支援システムを開発した。
論文 参考訳(メタデータ) (2020-02-27T17:04:07Z) - Interpretable Off-Policy Evaluation in Reinforcement Learning by
Highlighting Influential Transitions [48.91284724066349]
強化学習におけるオフ政治評価は、医療や教育などの領域における将来の成果を改善するために観察データを使用する機会を提供する。
信頼区間のような従来の尺度は、ノイズ、限られたデータ、不確実性のために不十分である可能性がある。
我々は,人間専門家が政策評価評価評価の妥当性を分析できるように,ハイブリッドAIシステムとして機能する手法を開発した。
論文 参考訳(メタデータ) (2020-02-10T00:26:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。