論文の概要: Bridging Gaps Between Student and Expert Evaluations of AI-Generated Programming Hints
- arxiv url: http://arxiv.org/abs/2509.03269v1
- Date: Wed, 03 Sep 2025 12:38:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.516677
- Title: Bridging Gaps Between Student and Expert Evaluations of AI-Generated Programming Hints
- Title(参考訳): AI生成プログラミングヒントの学生と専門家による評価のギャップを埋める
- Authors: Tung Phung, Mengyan Wu, Heeryung Choi, Gustavo Soares, Sumit Gulwani, Adish Singla, Christopher Brooks,
- Abstract要約: 我々は,学生や専門家の視点から,示唆されるヒント品質のミスマッチについて検討した。
これらのギャップを埋める潜在的な方法に関する予備的な結果を提案し,議論する。
- 参考スコア(独自算出の注目度): 21.254611931654132
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative AI has the potential to enhance education by providing personalized feedback to students at scale. Recent work has proposed techniques to improve AI-generated programming hints and has evaluated their performance based on expert-designed rubrics or student ratings. However, it remains unclear how the rubrics used to design these techniques align with students' perceived helpfulness of hints. In this paper, we systematically study the mismatches in perceived hint quality from students' and experts' perspectives based on the deployment of AI-generated hints in a Python programming course. We analyze scenarios with discrepancies between student and expert evaluations, in particular, where experts rated a hint as high-quality while the student found it unhelpful. We identify key reasons for these discrepancies and classify them into categories, such as hints not accounting for the student's main concern or not considering previous help requests. Finally, we propose and discuss preliminary results on potential methods to bridge these gaps, first by extending the expert-designed quality rubric and then by adapting the hint generation process, e.g., incorporating the student's comments or history. These efforts contribute toward scalable, personalized, and pedagogically sound AI-assisted feedback systems, which are particularly important for high-enrollment educational settings.
- Abstract(参考訳): 生成AIは、大規模に学生にパーソナライズされたフィードバックを提供することで、教育を強化する可能性がある。
近年の研究では、AI生成プログラミングヒントを改善する技術が提案されており、専門家が設計したルーリックや学生評価に基づいて、その性能を評価している。
しかし、これらの技法を設計に用いたルーブリックが、学生のヒントの有益さとどのように一致しているかは定かではない。
本稿では,PythonプログラミングコースにおけるAI生成ヒントの展開に基づいて,学生や専門家の視点から知覚されたヒント品質のミスマッチを体系的に研究する。
特に,学生評価と専門家評価の相違によるシナリオの分析を行った。
我々は,これらの不一致の原因を同定し,学生の主な関心事に言及しないヒントや,過去の援助要請を考慮しないヒントなどのカテゴリに分類する。
最後に,これらのギャップを埋める手法について,まず専門家が設計した品質ルーブリックを拡張し,その後,学生のコメントや歴史を取り入れたヒント生成プロセスを適用することで,予備的な結果を提示し,議論する。
これらの取り組みは、スケーラブルでパーソナライズされ、教育的なAI支援フィードバックシステムに寄与する。
関連論文リスト
- Teaching at Scale: Leveraging AI to Evaluate and Elevate Engineering Education [3.557803321422781]
本稿では,大規模言語モデルを用いた定性的な学生フィードバックのためのスケーラブルなAI支援フレームワークを提案する。
このシステムは階層的な要約、匿名化、例外処理を用いて、オープンなコメントから実行可能なテーマを抽出する。
大規模な工学系大学への展開が成功したことを報告します。
論文 参考訳(メタデータ) (2025-08-01T20:27:40Z) - From Coders to Critics: Empowering Students through Peer Assessment in the Age of AI Copilots [3.3094795918443634]
本稿では,大規模プログラミングコースで実装されたルーリックベースで匿名化されたピアレビュープロセスについて,実証的研究を行う。
学生同士の最終プロジェクト(2Dゲーム)を評価し,その評価を,相関,平均絶対誤差,根平均二乗誤差(RMSE)を用いたインストラクターの成績と比較した。
その結果、ピアレビューは、インストラクターの評価を適度な精度で近似し、学生のエンゲージメント、評価的思考、そして仲間に良いフィードバックを提供することへの関心を高めることができた。
論文 参考訳(メタデータ) (2025-05-28T08:17:05Z) - Level Up Peer Review in Education: Investigating genAI-driven Gamification system and its influence on Peer Feedback Effectiveness [0.8087870525861938]
本稿では、Generative AI(GenAI)アシストと統合されたゲーミフィケーションピアアセスメントプラットフォームであるSocratiqueを紹介する。
Socratiqueはゲーム要素を取り入れることで、学生により多くのフィードバックを提供する動機付けを目指している。
治療群では, 明瞭度, 関連性, 特異性について, より自発的なフィードバックが得られた。
論文 参考訳(メタデータ) (2025-04-03T18:30:25Z) - Beyond Detection: Designing AI-Resilient Assessments with Automated Feedback Tool to Foster Critical Thinking [0.0]
本研究は, 検出ではなく, 評価設計に基づく能動的AIレジリエントソリューションを提案する。
WebベースのPythonツールで、Bloomの分類と高度な自然言語処理技術を統合する。
これは、タスクがリコールや要約のような下位の思考や、分析、評価、作成といった上位のスキルを目標にしているかどうかを教育者が判断するのに役立つ。
論文 参考訳(メタデータ) (2025-03-30T23:13:00Z) - The Superalignment of Superhuman Intelligence with Large Language Models [63.96120398355404]
我々は,この疑問に答えるために,学習の観点からスーパーアライメントの概念について議論する。
スーパーアライメントにおけるいくつかの重要な研究課題、すなわち、弱いから強い一般化、スケーラブルな監視、評価に焦点を当てる。
本稿では,学習者モデルの弱点を露呈しようとする敵対的クエリを生成する攻撃者,最小限の人間専門家とともに,批判モデルによって生成されたスケーラブルなフィードバックから学習することで自己を洗練させる学習者,与えられた質問応答対に対する批判や説明を生成する批判者,そして批判によって学習者を改善することを目的とした,3つのモジュールからなるスーパーアライメントの概念的枠組みを提案する。
論文 参考訳(メタデータ) (2024-12-15T10:34:06Z) - Could ChatGPT get an Engineering Degree? Evaluating Higher Education Vulnerability to AI Assistants [176.39275404745098]
我々は,2つのAIアシスタントであるGPT-3.5とGPT-4が適切な回答を得られるかどうかを評価する。
GPT-4は65.8%の質問を正解し、85.1%の質問に対して少なくとも1つの手順で正しい答えを出すことができる。
この結果から,AIの進歩を踏まえて,高等教育におけるプログラムレベルの評価設計の見直しが求められた。
論文 参考訳(メタデータ) (2024-08-07T12:11:49Z) - Identifying Student Profiles Within Online Judge Systems Using
Explainable Artificial Intelligence [6.638206014723678]
オンライン審査員(OJ)システムは通常、学生によって開発されたコードの高速かつ客観的な評価を得られるため、プログラミング関連のコースの中で考慮される。
本研究の目的は,OJが収集した情報のさらなる活用を考慮し,学生とインストラクターの両方のフィードバックを自動的に推測することで,この制限に対処することである。
論文 参考訳(メタデータ) (2024-01-29T12:11:30Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Leveraging Expert Consistency to Improve Algorithmic Decision Support [62.61153549123407]
建設のギャップを狭めるために観測結果と組み合わせることができる情報源として,歴史専門家による意思決定の利用について検討する。
本研究では,データ内の各ケースが1人の専門家によって評価された場合に,専門家の一貫性を間接的に推定する影響関数に基づく手法を提案する。
本研究は, 児童福祉領域における臨床現場でのシミュレーションと実世界データを用いて, 提案手法が構成ギャップを狭めることに成功していることを示す。
論文 参考訳(メタデータ) (2021-01-24T05:40:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。