Fugu-MT 論文翻訳(概要): Synthetic Students: A Comparative Study of Bug Distribution Between Large Language Models and Computing Students

論文の概要: Synthetic Students: A Comparative Study of Bug Distribution Between Large Language Models and Computing Students

arxiv url: http://arxiv.org/abs/2410.09193v1
Date: Fri, 11 Oct 2024 18:51:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-30 15:53:25.701727
Title: Synthetic Students: A Comparative Study of Bug Distribution Between Large Language Models and Computing Students
Title（参考訳）: 合成学生:大規模言語モデルとコンピュータ学生のバグ分布の比較研究
Authors: Stephen MacNeil, Magdalena Rogalska, Juho Leinonen, Paul Denny, Arto Hellas, Xandria Crosland,
Abstract要約: 大規模言語モデル(LLM)は、合成教室データを生成するエキサイティングな機会を提供する。本研究では,LLMが生成するバグの分布を,コンピュータ学生が生成するバグとは対照的に検討する。
参考スコア（独自算出の注目度）: 4.949067768845775
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) present an exciting opportunity for generating synthetic classroom data. Such data could include code containing a typical distribution of errors, simulated student behaviour to address the cold start problem when developing education tools, and synthetic user data when access to authentic data is restricted due to privacy reasons. In this research paper, we conduct a comparative study examining the distribution of bugs generated by LLMs in contrast to those produced by computing students. Leveraging data from two previous large-scale analyses of student-generated bugs, we investigate whether LLMs can be coaxed to exhibit bug patterns that are similar to authentic student bugs when prompted to inject errors into code. The results suggest that unguided, LLMs do not generate plausible error distributions, and many of the generated errors are unlikely to be generated by real students. However, with guidance including descriptions of common errors and typical frequencies, LLMs can be shepherded to generate realistic distributions of errors in synthetic code.
Abstract（参考訳）: 大規模言語モデル(LLM)は、合成教室データを生成するエキサイティングな機会を提供する。このようなデータには、典型的なエラーの分布を含むコード、教育ツールを開発する際のコールドスタート問題に対処するためのシミュレーションされた学生の振る舞い、プライバシー上の理由から認証データへのアクセスが制限された際のユーザデータが含まれる。本研究では,LLMが生成するバグの分布を,コンピュータ学生が生成するバグと対比した比較研究を行う。学生が生成するバグの大規模解析から得られた2つのデータを利用して,コードにエラーを注入するよう促すと,学生のバグに類似したバグパターンを示すためにLLMをコークスできるかどうかを検討する。以上の結果から,LLMは有意な誤差分布を生成せず,実際の学生が生成する可能性は低いことが示唆された。しかし、一般的な誤りや典型周波数の記述を含むガイダンスにより、LLMをシェパードして合成符号の現実的な誤差分布を生成することができる。

関連論文リスト

Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。現在のエラー分類法は静的および事前定義されたカテゴリに依存している。 MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文参考訳（メタデータ） (2025-01-26T16:17:57Z)
LLM-itation is the Sincerest Form of Data: Generating Synthetic Buggy Code Submissions for Computing Education [5.421088637597145]
大規模言語モデル(LLM)は、大規模でプライバシを保存する合成データを作成するための有望なアプローチを提供する。本研究は,GPT-4oを用いた導入プログラミング演習のための合成バグギーコード生成について検討する。合成データと実生データ間のテストケース故障の分布を比較し,実生データを模倣した合成データの精度を解析した。
論文参考訳（メタデータ） (2024-11-01T00:24:59Z)
LLM-based Cognitive Models of Students with Misconceptions [55.29525439159345]
本稿では,この2つの要件を満たすためにLLM(Large Language Models)を命令調整できるかどうかを検討する。真正な学生ソリューションパターンを反映したデータセットを生成する新しいPythonライブラリであるMalAlgoPyを紹介する。我々の洞察は、AIに基づく学生モデルの理解を高め、効果的な適応学習システムへの道を開く。
論文参考訳（メタデータ） (2024-10-16T06:51:09Z)
Subtle Errors Matter: Preference Learning via Error-injected Self-editing [59.405145971637204]
eRror-Injected Self-Editing (RISE) と呼ばれる新しい好み学習フレームワークを提案する。 RISEは定義済みの微妙な誤りを正しい解の部分的なトークンに注入し、エラー軽減のためにハードペアを構築する。 RISEの有効性を検証する実験では、Qwen2-7B-Instructでは、GSM8Kでは3.0%、MATHでは7.9%が顕著に改善された。
論文参考訳（メタデータ） (2024-10-09T07:43:38Z)
LLMs Know More Than They Show: On the Intrinsic Representation of LLM Hallucinations [46.351064535592336]
大規模言語モデル(LLM)は、事実の不正確さやバイアス、推論失敗など、しばしばエラーを発生させる。近年の研究では、LLMの内部状態が出力の真偽に関する情報を符号化していることが示されている。 LLMの内部表現は、これまで認識されていた以上の真理性に関する情報を符号化している。
論文参考訳（メタデータ） (2024-10-03T17:31:31Z)
Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文参考訳（メタデータ） (2024-07-17T11:35:00Z)
Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。 LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文参考訳（メタデータ） (2024-07-12T10:11:40Z)
What's Wrong with Your Code Generated by Large Language Models? An Extensive Study [80.18342600996601]
大規模言語モデル(LLM)は、標準解に比べて短いがより複雑なコードを生成する。 3つのカテゴリと12のサブカテゴリを含む誤ったコードに対するバグの分類を開発し、一般的なバグタイプに対する根本原因を分析する。そこで本研究では,LLMがバグタイプやコンパイラフィードバックに基づいて生成したコードを批判し,修正することのできる,自己批判を導入した新たな学習自由反復手法を提案する。
論文参考訳（メタデータ） (2024-07-08T17:27:17Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Where Do Large Language Models Fail When Generating Code? [10.519984835232359]
大規模言語モデル(LLM)はコード生成に大きな可能性を示しています。 LLMがどのようなコード生成エラーを発生させるのかは不明だ。我々は、HumanEvalデータセット上で6つの人気のあるLCMが生成した誤りコードスニペットを分析した。
論文参考訳（メタデータ） (2024-06-13T01:29:52Z)
Improving LLM Classification of Logical Errors by Integrating Error Relationship into Prompts [1.7095867620640115]
プログラミング教育の重要な側面は、エラーメッセージの理解と処理である。プログラムがプログラマの意図に反して動作している「論理エラー」は、コンパイラからエラーメッセージを受け取らない。そこで本研究では,LLMを用いた論理的誤り検出手法を提案し,この手法を用いて,Chain-of-ThoughtとTree-of-Thoughtのプロンプトのエラータイプ間の関係を推定する。
論文参考訳（メタデータ） (2024-04-30T08:03:22Z)
Decoding Logic Errors: A Comparative Study on Bug Detection by Students and Large Language Models [5.162225137921625]
大規模言語モデル(LLM)は、最近、様々な計算タスクにおいて驚くべきパフォーマンスを示した。 GPT-3 と GPT-4 の2つの LLM の性能について検討した。
論文参考訳（メタデータ） (2023-11-27T17:28:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。