論文の概要: Modeling Student Learning with 3.8 Million Program Traces
- arxiv url: http://arxiv.org/abs/2510.05056v1
- Date: Mon, 06 Oct 2025 17:37:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:53:00.02263
- Title: Modeling Student Learning with 3.8 Million Program Traces
- Title(参考訳): 3.8万プログラムトレースによる学生学習のモデル化
- Authors: Alexis Ross, Megha Srivastava, Jeremiah Blanchard, Jacob Andreas,
- Abstract要約: Pencil Codeのユーザによる380万を越えるプログラミング推論のデータセットを紹介します。
実際のトレースに基づいてトレーニングされたモデルは、多様な学生の振る舞いをモデル化する上で、より強力であることがわかった。
我々は、コード生成モデルを操り、より正しいコードをもたらす一連の編集を識別することで、学生がミスから回復するのを支援できることを示します。
- 参考スコア(独自算出の注目度): 52.153493498021895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As programmers write code, they often edit and retry multiple times, creating rich "interaction traces" that reveal how they approach coding tasks and provide clues about their level of skill development. For novice programmers in particular, these traces reflect the diverse reasoning processes they employ to code, such as exploratory behavior to understand how a programming concept works, re-strategizing in response to bugs, and personalizing stylistic choices. In this work, we explore what can be learned from training language models on such reasoning traces: not just about code, but about coders, and particularly students learning to program. We introduce a dataset of over 3.8 million programming reasoning traces from users of Pencil Code, a free online educational platform used by students to learn simple programming concepts. Compared to models trained only on final programs or synthetically-generated traces, we find that models trained on real traces are stronger at modeling diverse student behavior. Through both behavioral and probing analyses, we also find that many properties of code traces, such as goal backtracking or number of comments, can be predicted from learned representations of the students who write them. Building on this result, we show that we can help students recover from mistakes by steering code generation models to identify a sequence of edits that will results in more correct code while remaining close to the original student's style. Together, our results suggest that many properties of code are properties of individual students and that training on edit traces can lead to models that are more steerable, more predictive of student behavior while programming, and better at generating programs in their final states. Code and data is available at https://github.com/meghabyte/pencilcode-public
- Abstract(参考訳): プログラマがコードを書くとき、しばしば何度も編集して再試行し、リッチな"インタラクショントレース"を作成し、コーディングタスクへのアプローチ方法を明らかにし、スキル開発レベルに関するヒントを提供する。
特に初心者プログラマにとって、これらのトレースは、プログラミングのコンセプトがどのように機能するかを理解する探索的な振る舞い、バグに対する再テスト、スタイル選択のパーソナライズなど、コードに採用するさまざまな推論プロセスを反映している。
本研究では、コードだけでなく、プログラマ、特にプログラミングを学ぶ学生について、このような推論トレースに基づいて言語モデルから何が学べるかを探求する。
学生が単純なプログラミング概念を学ぶために使用する無料のオンライン教育プラットフォームであるPencil Codeのユーザから,380万を超えるプログラミング推論のデータセットを紹介した。
最終プログラムでのみ訓練されたモデルや、合成されたトレースで訓練されたモデルと比較して、実トレースで訓練されたモデルは、多様な学生の振る舞いをモデル化する上でより強力であることがわかった。
行動分析と探索解析の両方を通して、目標追跡やコメント数など、コードトレースの多くの特性が、それらを書く学生の学習した表現から予測できることがわかった。
この結果をもとに,学生がコード生成モデルを操って誤りから回復し,より正確なコードを生成するための編集列を同定し,元の学生のスタイルに近づきながら,より正確なコードを生成することができることを示す。
この結果から,コードの性質は個々の学生の特性であり,編集トレースの訓練により,学生のプログラミング時の行動がより安定し,より予測的になり,最終状態でのプログラム生成の精度が向上する可能性が示唆された。
コードとデータはhttps://github.com/meghabyte/pencilcode-publicで公開されている。
関連論文リスト
- ParaStudent: Generating and Evaluating Realistic Student Code by Teaching LLMs to Struggle [24.691302820912888]
大規模言語モデル(LLM)は、プログラミングタスクに強いパフォーマンスを示していますが、実際の学生のように、学生のようなコードを生成することができますか?
本稿では,LLMをベースとした「学生的」コード生成の体系的研究であるParaStudentについて紹介する。
論文 参考訳(メタデータ) (2025-07-16T23:12:14Z) - Learning Code-Edit Embedding to Model Student Debugging Behavior [2.1485350418225244]
本稿では,学生の連続的なコード入力間で有意義なコード編集を学習するエンコーダ-デコーダモデルを提案する。
テストケースの正確性を改善しながら、生徒のコーディングスタイルを維持するための、パーソナライズされた次のステップのコード提案を可能にする。
論文 参考訳(メタデータ) (2025-02-26T18:54:39Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - CONCORD: Clone-aware Contrastive Learning for Source Code [64.51161487524436]
セルフ教師付き事前トレーニングは、多くのダウンストリームSEタスクに価値のあるジェネリックコード表現を学ぶための牽引役になった。
汎用的な表現学習のために、開発者が日々どのようにコードをコーディングするかは、要因としても不可欠である、と私たちは主張する。
特に,表現空間に良性クローンを近づける自己教師型コントラスト学習戦略であるCONCORDを提案する。
論文 参考訳(メタデータ) (2023-06-05T20:39:08Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Contrastive Learning for Source Code with Structural and Functional
Properties [66.10710134948478]
本稿では,ソースコードの特徴に基づいて事前学習に焦点を当てた,新たな自己教師型モデルBOOSTを提案する。
私たちは、機能的に等価なコードを生成する自動化された構造誘導型コード変換アルゴリズムを採用しています。
私たちは、対照的な学習目標を通じて、機能的に等価なコードをより近く、異なるコードに近づける方法で、モデルをトレーニングします。
論文 参考訳(メタデータ) (2021-10-08T02:56:43Z) - GraphCodeBERT: Pre-training Code Representations with Data Flow [97.00641522327699]
本稿では,コード固有の構造を考慮したプログラミング言語の事前学習モデルであるGraphCodeBERTを提案する。
これは変数間の"where-the-value-comes-from"の関係をエンコードするコードのセマンティックレベルの構造です。
コード検索,クローン検出,コード翻訳,コード改良の4つのタスクにおいて,本モデルを評価する。
論文 参考訳(メタデータ) (2020-09-17T15:25:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。