Fugu-MT 論文翻訳(概要): A Knowledge-Component-Based Methodology for Evaluating AI Assistants

論文の概要: A Knowledge-Component-Based Methodology for Evaluating AI Assistants

arxiv url: http://arxiv.org/abs/2406.05603v1
Date: Sun, 9 Jun 2024 00:58:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-11 18:56:27.550465
Title: A Knowledge-Component-Based Methodology for Evaluating AI Assistants
Title（参考訳）: 知識コンポーネントに基づくAIアシスタント評価手法
Authors: Laryn Qi, J. D. Zamfirescu-Pereira, Taehan Kim, Björn Hartmann, John DeNero, Narges Norouzi,
Abstract要約: GPT-4をベースとしたCS1プログラム代入のためのヒント自動生成システムの評価を行った。本システムは,学生が短時間のプログラミング演習において,誤った解法をいかに改善できるか,という自然言語指導を提供する。
参考スコア（独自算出の注目度）: 9.412070852474313
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We evaluate an automatic hint generator for CS1 programming assignments powered by GPT-4, a large language model. This system provides natural language guidance about how students can improve their incorrect solutions to short programming exercises. A hint can be requested each time a student fails a test case. Our evaluation addresses three Research Questions: RQ1: Do the hints help students improve their code? RQ2: How effectively do the hints capture problems in student code? RQ3: Are the issues that students resolve the same as the issues addressed in the hints? To address these research questions quantitatively, we identified a set of fine-grained knowledge components and determined which ones apply to each exercise, incorrect solution, and generated hint. Comparing data from two large CS1 offerings, we found that access to the hints helps students to address problems with their code more quickly, that hints are able to consistently capture the most pressing errors in students' code, and that hints that address a few issues at once rather than a single bug are more likely to lead to direct student progress.
Abstract（参考訳）: 大規模言語モデルである GPT-4 を用いたCS1 プログラム代入のためのヒント自動生成手法の評価を行った。本システムは,学生が短時間のプログラミング演習において,誤った解法をいかに改善できるか,という自然言語指導を提供する。学生がテストケースに失敗するたびにヒントを要求できる。 RQ1: ヒントは学生のコード改善に役立つか? RQ2: ヒントは学生のコードの問題をどの程度効果的に捉えていますか? RQ3: 学生が解決する問題はヒントで解決する問題と同じでしょうか? これらの研究課題に定量的に対処するために、我々は一連のきめ細かい知識成分を特定し、それぞれのエクササイズ、不正解、および生成されたヒントにどの要素を適用するかを決定しました。 2つの大きなCS1オファリングのデータを比較すると、ヒントへのアクセスは、学生がコードでより迅速に問題に対処するのに役立つこと、ヒントは、学生のコードの最も押し寄せるエラーを一貫してキャプチャできること、そして、単一のバグではなく、一度にいくつかの問題に対処するヒントが、直接の生徒の進歩につながる可能性が高いこと、が分かりました。

関連論文リスト

Self-Questioning Language Models [51.75087358141567]
本稿では,提案者がトピックを与えられ,解答者に対する質問を生成する非対称なセルフプレイフレームワークを提案する。提案者と解答者はともに強化学習を通じて訓練される。 3桁の乗算、OMEGAベンチマークの代数問題、Codeforcesのプログラミング問題である。
論文参考訳（メタデータ） (2025-08-05T17:51:33Z)
Do AI models help produce verified bug fixes? [62.985237003585674]
大規模言語モデルは、ソフトウェアバグの修正に使用される。本稿では,プログラマが大規模言語モデルを用いて,自身のスキルを補完する方法について検討する。その結果は、プログラムバグに対する保証された修正を提供するAIとLLMの適切な役割への第一歩となる。
論文参考訳（メタデータ） (2025-07-21T17:30:16Z)
One Step at a Time: Combining LLMs and Static Analysis to Generate Next-Step Hints for Programming Tasks [5.069252018619403]
学生はプログラミングを学ぶとき、特にオンラインでやらなければならないとき、プログラミングの問題を解決するのに苦労することが多い。このヘルプは次のステップのヒント生成として提供され、生徒が次にすべき小さなステップを教えて、正しいソリューションを得る。本稿では,プログラムタスクのためのテキストヒントとコードヒントの両方を提供する新しいシステムを提案する。
論文参考訳（メタデータ） (2024-10-11T21:41:57Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
Instruct, Not Assist: LLM-based Multi-Turn Planning and Hierarchical Questioning for Socratic Code Debugging [27.70379206820154]
ソクラテス質問は効果的な教育戦略であり、批判的思考と問題解決を奨励する。 TreeInstructは、学生が個別にエラーを特定し、解決するのを助けるために、探索的な質問をする。学生の概念的・統語的知識を推定し、その反応と現在の知識状態に基づいて質問ツリーを動的に構築する。
論文参考訳（メタデータ） (2024-06-17T16:28:21Z)
SCREWS: A Modular Framework for Reasoning with Revisions [58.698199183147935]
我々は、リビジョンを伴う推論のためのモジュラーフレームワークであるSCREWSを紹介する。我々は、SCREWSが、共通のフレームワークの下で、いくつかの以前のアプローチを統合することを示す。我々は,多種多様な推論タスクに基づいて,最先端のLCMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2023-09-20T15:59:54Z)
Automated Questions About Learners' Own Code Help to Detect Fragile Knowledge [0.0]
学生は、実際にどのように動作するかを脆弱に理解していても、正しく機能するプログラムコードを作成できる。個々のエクササイズ提出書(QLC)から自動的に抽出された質問は、学生が作成したコードの構造とロジックを十分に理解しているかどうかを調査することができる。
論文参考訳（メタデータ） (2023-06-28T14:49:16Z)
Least-to-Most Prompting Enables Complex Reasoning in Large Language Models [52.59923418570378]
本稿では, 難解な一般化の課題を克服するために, 最小限のプロンプト戦略を提案する。最小限のプロンプトは、プロンプトで見られるものよりも難しい問題に一般化可能であることを示す。 SCANの解決を専門とする文献におけるニューラルシンボリックモデルは、15,000以上のサンプルを含むトレーニングセット全体をトレーニングする。
論文参考訳（メタデータ） (2022-05-21T15:34:53Z)
Steps Before Syntax: Helping Novice Programmers Solve Problems using the PCDIT Framework [2.768397481213625]
初心者プログラマは、直面する高い認知的負荷のために、しばしば問題解決に苦労します。多くの入門プログラミングコースは、その途中で問題解決スキルが取得されるという前提で、それを明示的に教えていない。問題仕様を命令型プログラミング言語のための実装およびテストされたソリューションに変換するプロセスを通じて、初心者プログラマを誘導するための足場を提供する非線形問題解決フレームワークである 'PCDIT' を提案する。
論文参考訳（メタデータ） (2021-09-18T10:31:15Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Few-Shot Complex Knowledge Base Question Answering via Meta Reinforcement Learning [55.08037694027792]
複雑な質問答え(CQA)は、知識ベース(KB)上の複雑な自然言語質問に答える。従来のニューラルプログラム誘導(NPI)アプローチは、質問の種類が異なる場合、不均一なパフォーマンスを示す。本稿では,CQAにおけるプログラム誘導のためのメタ強化学習手法を提案する。
論文参考訳（メタデータ） (2020-10-29T18:34:55Z)
Retrieve, Program, Repeat: Complex Knowledge Base Question Answering via Alternate Meta-learning [56.771557756836906]
本稿では,弱い監督からプログラマと交互に検索モデルを自動的に学習する手法を提案する。本システムでは,知識ベースに対する複雑な質問応答を行う大規模タスクにおいて,最先端のパフォーマンスを実現する。
論文参考訳（メタデータ） (2020-10-29T18:28:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。