論文の概要: "I Would Have Written My Code Differently'': Beginners Struggle to Understand LLM-Generated Code
- arxiv url: http://arxiv.org/abs/2504.19037v1
- Date: Sat, 26 Apr 2025 22:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.102084
- Title: "I Would Have Written My Code Differently'': Beginners Struggle to Understand LLM-Generated Code
- Title(参考訳): コードを別々に書けばよかった」:LDM生成コードの理解が難しかった人
- Authors: Yangtian Zi, Luisa Li, Arjun Guha, Carolyn Jane Anderson, Molly Q Feldman,
- Abstract要約: 本稿では、初心者が大規模言語モデル(LLM)の生成したコードをいかによく理解するかを測る。
主な課題は、非ネイティブな英語話者の障壁、Pythonの構文に慣れていないこと、自動化バイアスである。
調査の結果、タスク当たりの成功率は32.5%と低かった。
- 参考スコア(独自算出の注目度): 3.125508434341366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) are being increasingly adopted for programming work. Prior work shows that while LLMs accelerate task completion for professional programmers, beginning programmers struggle to prompt models effectively. However, prompting is just half of the code generation process -- when code is generated, it must be read, evaluated, and integrated (or rejected). How accessible are these tasks for beginning programmers? This paper measures how well beginners comprehend LLM-generated code and explores the challenges students face in judging code correctness. We compare how well students understand natural language descriptions of functions and LLM-generated implementations, studying 32 CS1 students on 160 task instances. Our results show a low per-task success rate of 32.5\%, with indiscriminate struggles across demographic populations. Key challenges include barriers for non-native English speakers, unfamiliarity with Python syntax, and automation bias. Our findings highlight the barrier that code comprehension presents to beginning programmers seeking to write code with LLMs.
- Abstract(参考訳): 大規模言語モデル(LLM)は、プログラミング作業にますます採用されている。
以前の研究は、LLMがプロのプログラマのタスク完了を加速する一方で、初心者プログラマが効果的にモデルを促すのに苦労していることを示している。
しかし、プロンプトはコード生成プロセスの半分に過ぎず、コードが生成されると、読み、評価され、統合されなければならない(あるいは拒否される)。
プログラマにとって、これらのタスクはどの程度アクセス可能か?
本稿では、初心者がLLM生成コードをいかに理解しているかを測り、学生がコード正当性を判断する際に直面する課題について考察する。
学生が関数の自然言語記述とLLM生成の実装をいかによく理解しているかを比較し,160のタスクインスタンス上で32人のCS1学生について検討した。
調査の結果, タスク当たりの成功率は32.5\%と低かった。
主な課題は、非ネイティブな英語話者の障壁、Pythonの構文に慣れていないこと、自動化バイアスである。
我々の発見は、LLMでコードを書きたいプログラマにとって、コード理解がもたらす障壁を浮き彫りにしている。
関連論文リスト
- How Accurately Do Large Language Models Understand Code? [4.817546726074033]
大規模言語モデル(LLM)は、コードの修復やテストといった開発後のタスクでますます使われています。
コードの理解の定量化は、その抽象的な性質と標準化されたメトリクスの欠如のために難しい。
本稿では,LLMのコード理解能力に関する大規模な実証的研究を行った。
論文 参考訳(メタデータ) (2025-04-06T05:59:29Z) - Substance Beats Style: Why Beginning Students Fail to Code with LLMs [3.4817709155395327]
既存の作業は、初心者がLLMにテキストからコードへのタスクの解決を促すのに苦労していることを示している。
本稿では,学生のLLM誤信の原因について,競合する2つの仮説を考察する。
論文 参考訳(メタデータ) (2024-10-15T20:36:30Z) - Assured LLM-Based Software Engineering [51.003878077888686]
この記事では,2024年4月15日にポルトガルのリスボンで開催された International Workshop on Interpretability, Robustness, and Benchmarking in Neural Software Engineering で,Mark Harman 氏による基調講演の内容の概要を紹介する。
論文 参考訳(メタデータ) (2024-02-06T20:38:46Z) - Interactions with Prompt Problems: A New Way to Teach Programming with
Large Language Models [4.1599514827277355]
本稿では,プロンプト問題を用いてプログラミングを教える新しい方法を提案する。
学生は視覚的に問題を受け取り、どのように入力を出力に変換するかを示し、それをLLMが解読するプロンプトに変換する必要がある。
この問題は、学生プロンプトによって生成されたコードが全てのテストケースをパスできる場合、正しいと考えられる。
論文 参考訳(メタデータ) (2024-01-19T15:32:46Z) - Code Prompting Elicits Conditional Reasoning Abilities in Text+Code LLMs [65.2379940117181]
自然言語の問題をコードに変換する一連のプロンプトであるコードプロンプトを導入します。
コードプロンプトは複数のLLMに対して高速に向上することがわかった。
GPT 3.5を解析した結果,入力問題のコードフォーマッティングが性能向上に不可欠であることが判明した。
論文 参考訳(メタデータ) (2024-01-18T15:32:24Z) - If LLM Is the Wizard, Then Code Is the Wand: A Survey on How Code
Empowers Large Language Models to Serve as Intelligent Agents [81.60906807941188]
大型言語モデル(LLM)は、自然言語と形式言語(コード)の組み合わせに基づいて訓練される
コードは、標準構文、論理一貫性、抽象化、モジュール性を備えた高レベルの目標を実行可能なステップに変換する。
論文 参考訳(メタデータ) (2024-01-01T16:51:20Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - CodeApex: A Bilingual Programming Evaluation Benchmark for Large
Language Models [43.655927559990616]
我々は,LLMのプログラミング理解,コード生成,コード修正能力に着目したベンチマークデータセットであるCodeApexを提案する。
汎用モデルと特化モデルの両方を含む,広く使用されているLLMを12種類評価した。
GPT-4は最高のプログラミング能力を示し、それぞれ69%、54%、66%の精度を達成している。
論文 参考訳(メタデータ) (2023-09-05T04:12:01Z) - StudentEval: A Benchmark of Student-Written Prompts for Large Language
Models of Code [2.087827281461409]
StudentEvalには48の問題に対して1,749のプロンプトが含まれており、Pythonプログラミングの1学期しか完了していない80人の学生によって書かれた。
本研究は,学生のプロンプトを解析し,学生のプロンプト技術に有意な変化を見出した。
論文 参考訳(メタデータ) (2023-06-07T16:03:55Z) - Learning to Plan with Natural Language [111.76828049344839]
大規模言語モデル(LLM)は、様々な基本自然言語タスクにおいて顕著な性能を示している。
複雑なタスクを完了するためには、ステップごとに特定のソリューションを生成するためにLCMをガイドするタスクの計画が必要です。
本研究では,(1)第1学習課題計画フェーズにおいて,LCMが学習エラーフィードバックから導出するように促した新たなステップバイステップのソリューションと行動指示を用いてタスク計画を反復的に更新する,という2つの段階を含む学習計画手法を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:09:12Z) - PAL: Program-aided Language Models [112.94785609781503]
自然言語問題を理解するために,プログラム支援言語モデル(PaL)を提案する。
PaLはソリューションステップをPythonインタプリタのようなプログラムランタイムにオフロードする。
私たちは12のベンチマークで新しい最先端の結果を設定しました。
論文 参考訳(メタデータ) (2022-11-18T18:56:13Z) - Language Models of Code are Few-Shot Commonsense Learners [106.1531522893209]
自然言語入力が与えられた場合、目標はイベントや推論グラフなどのグラフを生成することだ。
既存のアプローチは、出力グラフをノードとエッジのフラットリストとしてシリアライズする。
コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、事前学習されたコードLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-10-13T16:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。