論文の概要: Using Learning Progressions to Guide AI Feedback for Science Learning
- arxiv url: http://arxiv.org/abs/2603.03249v1
- Date: Tue, 03 Mar 2026 18:39:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 21:38:10.932989
- Title: Using Learning Progressions to Guide AI Feedback for Science Learning
- Title(参考訳): 学習の進歩を使って科学学習のためのAIフィードバックをガイドする
- Authors: Xin Xia, Nejla Yuruk, Yun Wang, Xiaoming Zhai,
- Abstract要約: 生成人工知能(AI)は、フォーマティブフィードバックのスケーラブルなサポートを提供する。
効果的ではあるが、ルーリックオーサリングは時間がかかり、命令コンテキスト間のスケーラビリティが制限される。
本研究では、LP駆動のルーブリック生成パイプラインが、専門家によるタスクルーブリックによるフィードバックに匹敵する品質のAI生成フィードバックを生成できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 9.90590245204881
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative artificial intelligence (AI) offers scalable support for formative feedback, yet most AI-generated feedback relies on task-specific rubrics authored by domain experts. While effective, rubric authoring is time-consuming and limits scalability across instructional contexts. Learning progressions (LP) provide a theoretically grounded representation of students' developing understanding and may offer an alternative solution. This study examines whether an LP-driven rubric generation pipeline can produce AI-generated feedback comparable in quality to feedback guided by expert-authored task rubrics. We analyzed AI-generated feedback for written scientific explanations produced by 207 middle school students in a chemistry task. Two pipelines were compared: (a) feedback guided by a human expert-designed, task-specific rubric, and (b) feedback guided by a task-specific rubric automatically derived from a learning progression prior to grading and feedback generation. Two human coders evaluated feedback quality using a multi-dimensional rubric assessing Clarity, Accuracy, Relevance, Engagement and Motivation, and Reflectiveness (10 sub-dimensions). Inter-rater reliability was high, with percent agreement ranging from 89% to 100% and Cohen's kappa values for estimable dimensions (kappa = .66 to .88). Paired t-tests revealed no statistically significant differences between the two pipelines for Clarity (t1 = 0.00, p1 = 1.000; t2 = 0.84, p2 = .399), Relevance (t1 = 0.28, p1 = .782; t2 = -0.58, p2 = .565), Engagement and Motivation (t1 = 0.50, p1 = .618; t2 = -0.58, p2 = .565), or Reflectiveness (t = -0.45, p = .656). These findings suggest that the LP-driven rubric pipeline can serve as an alternative solution.
- Abstract(参考訳): 生成人工知能(AI)は、形式的フィードバックに対するスケーラブルなサポートを提供するが、ほとんどのAI生成されたフィードバックは、ドメインの専門家によって書かれたタスク固有のルーリックに依存している。
効果的ではあるが、ルーリックオーサリングは時間がかかり、命令コンテキスト間のスケーラビリティが制限される。
学習の進歩(LP)は、学生の発達する理解を理論的に基礎づけた表現を提供し、代替の解決策を提供するかもしれない。
本研究では、LP駆動のルーブリック生成パイプラインが、専門家によるタスクルーブリックによるフィードバックに匹敵する品質のAI生成フィードバックを生成できるかどうかを検討する。
そこで我々は,207人の中学生が生み出した科学的な説明書に,AIが生み出すフィードバックを化学的なタスクで分析した。
2つのパイプラインを比較した。
(a)人間の専門家が設計したタスク固有のルーリックに導かれるフィードバック及び
(b) 学習進行から自動的に派生したタスク特化ルーブリックで指導されたフィードバックを, 評価とフィードバック生成に先立って導いた。
2人の人間コーダが, 明瞭度, 正確度, 妥当性, エンゲージメント, モチベーション, 反射率を多次元的に評価し, フィードバック品質を評価した。
レータ間の信頼性は高く、一致率は89%から100%、コーエンのカッパ値は推定可能次元(カッパ=.66から.88)である。
Paired t-tests は、Clarity (t1 = 0.00, p1 = 1.000, t2 = 0.84, p2 = .399), Relevance (t1 = 0.28, p1 = .782; t2 = -0.58, p2 = .565), Engagement and Motivation (t1 = 0.50, p1 = .618; t2 = -0.58, p2 = .565), Reflectiveness (t = -0.45, p = .656) の2つのパイプライン間で統計的に有意な差を示さなかった。
これらの結果から,LP駆動型ルーブリックパイプラインが代替ソリューションとなる可能性が示唆された。
関連論文リスト
- Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods [0.0]
本稿では、AIモデルが学生コードに直接ルーブリックを適用する textitDirect と、AIが最初にエラーを修正し、その性質と修正数に基づいてグレードを推定する textitReverse (新たに提案されたアプローチ) の2つのAIベースのグレード技術を比較した。
本稿では,ハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
論文 参考訳(メタデータ) (2025-11-17T01:38:06Z) - Thinking Forward and Backward: Multi-Objective Reinforcement Learning for Retrieval-Augmented Reasoning [137.33138614095435]
Retrieval-augmented Generation (RAG) は、大規模言語モデルにおける幻覚の緩和に有効であることが証明されている。
近年、検索に基づく対話をRAGに組み込んで、リアルタイム検索による反復推論を可能にしている。
提案するBi-RARは,各中間ステップを前方方向と後方方向の両方で共同で評価する,新たな検索拡張推論フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T08:29:39Z) - Retrieval-Augmented Guardrails for AI-Drafted Patient-Portal Messages: Error Taxonomy Construction and Large-Scale Evaluation [5.555479009357263]
EHRポータル経由の非同期患者・クリニックメッセージングは、クリニックのワークロードの増加源である。
1) 5つのドメインと59の粒度のエラーコードからなる臨床基礎的エラーオントロジーを導入し,(2)検索強化評価パイプラインを開発し,(3)拡張性,解釈性,階層的エラー検出を実現するためにDSPyを用いた2段階のプロンプトアーキテクチャを提供する。
論文 参考訳(メタデータ) (2025-09-26T16:42:43Z) - Automated Classification of Tutors' Dialogue Acts Using Generative AI: A Case Study Using the CIMA Corpus [10.325932865188514]
このケーススタディでは、教師の回答を4つのDAカテゴリに事前にアノテートしたオープンソースのCIMAコーパスを用いている。
その結果, GPT-4は80%の精度, F1スコア0.81, Cohen's Kappa0.74を得た。
論文 参考訳(メタデータ) (2025-09-11T03:36:03Z) - CoCoNUTS: Concentrating on Content while Neglecting Uninformative Textual Styles for AI-Generated Peer Review Detection [60.52240468810558]
我々は、AI生成ピアレビューの詳細なデータセットの上に構築されたコンテンツ指向ベンチマークであるCoCoNUTSを紹介する。
また、マルチタスク学習フレームワークを介してAIレビュー検出を行うCoCoDetを開発し、レビューコンテンツにおけるAIのより正確で堅牢な検出を実現する。
論文 参考訳(メタデータ) (2025-08-28T06:03:11Z) - T2I-Eval-R1: Reinforcement Learning-Driven Reasoning for Interpretable Text-to-Image Evaluation [60.620408007636016]
T2I-Eval-R1は,大まかな品質スコアのみを用いて,オープンソースのMLLMを訓練する新しい強化学習フレームワークである。
提案手法では,グループ相対政策最適化を命令調整プロセスに統合し,スカラースコアと解釈可能な推論チェーンの両方を生成する。
論文 参考訳(メタデータ) (2025-05-23T13:44:59Z) - VisIT-Bench: A Benchmark for Vision-Language Instruction Following
Inspired by Real-World Use [49.574651930395305]
VisIT-Benchは、命令追従型視覚言語モデルの評価のためのベンチマークである。
提案データセットは592個のテストクエリからなり,それぞれに人手による指示条件付きキャプションを付与した。
人的評価と自動評価の両方を用いて,モデルと参照間の品質ギャップを定量化する。
論文 参考訳(メタデータ) (2023-08-12T15:27:51Z) - Towards Automatic Boundary Detection for Human-AI Collaborative Hybrid
Essay in Education [10.606131520965604]
本研究では,滅多に調査されていない現実的な環境下でのAIコンテンツ検出について検討する。
まず,人書きコンテンツとAI生成コンテンツ間の遷移点の同定として,検出タスクを定式化した。
次に、エンコーダトレーニングプロセス中にAI生成コンテンツと人書きコンテンツとを分離する2段階のアプローチを提案した。
論文 参考訳(メタデータ) (2023-07-23T08:47:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Enabling Classifiers to Make Judgements Explicitly Aligned with Human
Values [73.82043713141142]
性差別/人種差別の検出や毒性検出などの多くのNLP分類タスクは、人間の値に基づいている。
本稿では,コマンド内で明示的に記述された人間の値に基づいて予測を行う,値整合型分類のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-14T09:10:49Z) - Interactive Code Generation via Test-Driven User-Intent Formalization [60.90035204567797]
大きな言語モデル(LLM)は、非公式な自然言語(NL)の意図からコードを生成する。
自然言語は曖昧であり、形式的な意味論が欠けているため、正確性の概念を定義するのは難しい。
言語に依存しない抽象アルゴリズムと具体的な実装TiCoderについて述べる。
論文 参考訳(メタデータ) (2022-08-11T17:41:08Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。