論文の概要: Howzat? Appealing to Expert Judgement for Evaluating Human and AI Next-Step Hints for Novice Programmers
- arxiv url: http://arxiv.org/abs/2411.18151v1
- Date: Wed, 27 Nov 2024 08:59:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 15:27:22.331300
- Title: Howzat? Appealing to Expert Judgement for Evaluating Human and AI Next-Step Hints for Novice Programmers
- Title(参考訳): ハウザ? 初心者プログラマのための人間とAIの次のステップのヒントを評価する専門家の判断に訴える
- Authors: Neil C. C. Brown, Pierre Weill-Tessier, Juho Leinonen, Paul Denny, Michael Kölling,
- Abstract要約: 初心者のプログラミングツールでは、何が良いヒントになるのか、どのように自動的に良いヒントを生成するのかを知ることが重要です。
私たちは世界中から44人のJava教育者を募集し、オンライン調査に参加しました。
参加者は、Large Language Models (LLM) と5人の経験豊富な教育者が作成した次のステップのJavaヒントのセットをランク付けした。
- 参考スコア(独自算出の注目度): 3.2498303239935233
- License:
- Abstract: Motivation: Students learning to program often reach states where they are stuck and can make no forward progress. An automatically generated next-step hint can help them make forward progress and support their learning. It is important to know what makes a good hint or a bad hint, and how to generate good hints automatically in novice programming tools, for example using Large Language Models (LLMs). Method and participants: We recruited 44 Java educators from around the world to participate in an online study. We used a set of real student code states as hint-generation scenarios. Participants used a technique known as comparative judgement to rank a set of candidate next-step Java hints, which were generated by Large Language Models (LLMs) and by five human experienced educators. Participants ranked the hints without being told how they were generated. Findings: We found that LLMs had considerable variation in generating high quality next-step hints for programming novices, with GPT-4 outperforming other models tested. When used with a well-designed prompt, GPT-4 outperformed human experts in generating pedagogically valuable hints. A multi-stage prompt was the most effective LLM prompt. We found that the two most important factors of a good hint were length (80--160 words being best), and reading level (US grade 9 or below being best). Offering alternative approaches to solving the problem was considered bad, and we found no effect of sentiment. Conclusions: Automatic generation of these hints is immediately viable, given that LLMs outperformed humans -- even when the students' task is unknown. The fact that only the best prompts achieve this outcome suggests that students on their own are unlikely to be able to produce the same benefit. The prompting task, therefore, should be embedded in an expert-designed tool.
- Abstract(参考訳): モチベーション(Motivation): プログラムを学ぶ学生は、しばしば立ち往生している州に到達し、前進しない。
自動生成される次のステップヒントは、前進し、学習をサポートするのに役立つ。
よいヒントや悪いヒントを何にするか、初心者のプログラミングツールでどのようにして良いヒントを自動生成するかを知っておくことが重要です。
メソッドと参加者: 私たちは世界中の44人のJava教育者を募集し、オンライン調査に参加しました。
私たちは、ヒント生成シナリオとして、学生の実際のコードステートのセットを使用しました。
参加者は、Large Language Models (LLM) と5人の経験豊富な教育者によって生成される、次のステップのJavaヒントの候補をランク付けするために、比較判断として知られるテクニックを使用した。
参加者は、どのように生成されたかを知ることなくヒントをランク付けした。
結果: LLMはプログラミング初心者に高品質な次ステップヒントを生成するのにかなりのバリエーションがあり, GPT-4は他のモデルよりも優れていることがわかった。
適切に設計されたプロンプトで使用すると、GPT-4は、教育学的に価値のあるヒントを生成する上で、人間の専門家より優れていた。
マルチステージプロンプトは最も効果的なLSMプロンプトであった。
良いヒントの2つの重要な要因は、長さ(80~160語がベスト)と読解レベル(米国学年9以下)であることがわかった。この問題を解決するための代替手法を提供することは悪いと考えられており、感情の影響は見つからなかった。結論:これらのヒントの自動生成は、学生のタスクが未知であっても、人間よりも優れていたことを考えると、すぐに実現可能である。
この結果が達成できる最善のプロンプトだけであるという事実は、学生自身が同じ利益を得られるとは考えにくいことを示唆している。
したがって、プロンプトタスクは専門家が設計したツールに組み込まれるべきである。
関連論文リスト
- One Step at a Time: Combining LLMs and Static Analysis to Generate Next-Step Hints for Programming Tasks [5.069252018619403]
学生はプログラミングを学ぶとき、特にオンラインでやらなければならないとき、プログラミングの問題を解決するのに苦労することが多い。
このヘルプは次のステップのヒント生成として提供され、生徒が次にすべき小さなステップを教えて、正しいソリューションを得る。
本稿では,プログラムタスクのためのテキストヒントとコードヒントの両方を提供する新しいシステムを提案する。
論文 参考訳(メタデータ) (2024-10-11T21:41:57Z) - Show, Don't Tell: Aligning Language Models with Demonstrated Feedback [54.10302745921713]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - Generating Feedback-Ladders for Logical Errors in Programming using Large Language Models [2.1485350418225244]
大規模言語モデル(LLM)に基づく手法は,プログラムの代入に対するフィードバック生成において大きな可能性を秘めている。
本稿では、LLMを用いて「フィードバック・ラダー」、すなわち、同じ問題とサブミッションのペアに対する複数のレベルのフィードバックを生成する。
本研究では, 学生, 教育者, 研究者によるユーザスタディにより, 生成したフィードバックラダーの品質を評価する。
論文 参考訳(メタデータ) (2024-05-01T03:52:39Z) - Exploring How Multiple Levels of GPT-Generated Programming Hints Support or Disappoint Novices [0.0]
本研究は,学生の問題解決と学習を支援するヒントのレベルの違いについて検討した。
LLMヒントファクトリーを用いた12初心者を対象にシンクアップアラウド調査を行った。
ハイレベルな自然言語のヒントだけでは役に立たないか、あるいは誤解を招く可能性があることがわかりました。
論文 参考訳(メタデータ) (2024-04-02T18:05:26Z) - Next-Step Hint Generation for Introductory Programming Using Large
Language Models [0.8002196839441036]
大きな言語モデルは、質問に答えたり、エッセイを書いたり、プログラミングの練習を解くといったスキルを持っている。
本研究は,LLMが学生に次のステップの自動ヒントを提供することで,プログラミング教育にどう貢献できるかを考察する。
論文 参考訳(メタデータ) (2023-12-03T17:51:07Z) - Aligning Large Language Models with Human: A Survey [53.6014921995006]
広範囲なテキストコーパスで訓練されたLarge Language Models (LLM) は、幅広い自然言語処理(NLP)タスクの先導的なソリューションとして登場した。
その顕著な性能にもかかわらず、これらのモデルは、人間の指示を誤解したり、偏見のあるコンテンツを生成したり、事実的に誤った情報を生成するといった、ある種の制限を受ける傾向にある。
本調査では,これらのアライメント技術の概要について概観する。
論文 参考訳(メタデータ) (2023-07-24T17:44:58Z) - Large Language Models are Zero-Shot Rankers for Recommender Systems [76.02500186203929]
本研究では,レコメンダシステムのランキングモデルとして機能する大規模言語モデル(LLM)の能力を検討することを目的とする。
LLMにはゼロショットランキング能力があるが、歴史的相互作用の順序を理解するのに苦労していることを示す。
これらの問題は、特別に設計されたプロンプトとブートストラップ戦略によって緩和可能であることを実証する。
論文 参考訳(メタデータ) (2023-05-15T17:57:39Z) - Principle-Driven Self-Alignment of Language Models from Scratch with
Minimal Human Supervision [84.31474052176343]
ChatGPTのような最近のAIアシスタントエージェントは、人間のアノテーションと人間のフィードバックからの強化学習を教師付き微調整(SFT)に頼り、アウトプットを人間の意図に合わせる。
この依存は、人間の監督を得るために高いコストがかかるため、AIアシスタントエージェントの真の可能性を大幅に制限することができる。
本稿では,AIエージェントの自己調整と人間監督の最小化のために,原則駆動推論とLLMの生成能力を組み合わせたSELF-ALIGNという新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-05-04T17:59:28Z) - Large Language Models Are Human-Level Prompt Engineers [31.98042013940282]
本稿では,自動命令生成と選択のための自動プロンプトエンジニアを提案する。
APEを駆使したプロンプトは、真理性や情報性に対するステアモデルに適用可能であることを示す。
論文 参考訳(メタデータ) (2022-11-03T15:43:03Z) - RLPrompt: Optimizing Discrete Text Prompts With Reinforcement Learning [84.75064077323098]
本稿では、強化学習(RL)を用いた離散的高速最適化手法RLPromptを提案する。
RLPromptは、マスク付きジベリッシュ(例:grammaBERT)や左から右へのモデル(例:GPT)など、様々な種類のLMに柔軟に適用可能である。
少数ショット分類と教師なしテキストスタイル転送の実験は、既存のファインタニングやプロンプト手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-05-25T07:50:31Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。