論文の概要: ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension
- arxiv url: http://arxiv.org/abs/2503.12207v1
- Date: Sat, 15 Mar 2025 17:22:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:33:27.002697
- Title: ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension
- Title(参考訳): コード理解を再定義する: コード理解を評価するメカニズムとしての関数ネーミング
- Authors: David H. Smith IV, Max Fowler, Paul Denny, Craig Zilles,
- Abstract要約: コード理解スキルの評価には「平易な英語で説明する」(EiPE)質問が広く用いられている。
Code Generation Based Grading (CGBG)のような最近のアプローチでは、大きな言語モデルを利用してコードを生成する。
本稿では,学生が関数名を生成する手法を提案し,実装の詳細よりも関数の目的を強調する。
- 参考スコア(独自算出の注目度): 2.250363093539224
- License:
- Abstract: "Explain in Plain English" (EiPE) questions are widely used to assess code comprehension skills but are challenging to grade automatically. Recent approaches like Code Generation Based Grading (CGBG) leverage large language models (LLMs) to generate code from student explanations and validate its equivalence to the original code using unit tests. However, this approach does not differentiate between high-level, purpose-focused responses and low-level, implementation-focused ones, limiting its effectiveness in assessing comprehension level. We propose a modified approach where students generate function names, emphasizing the function's purpose over implementation details. We evaluate this method in an introductory programming course and analyze it using Item Response Theory (IRT) to understand its effectiveness as exam items and its alignment with traditional EiPE grading standards. We also publish this work as an open source Python package for autograding EiPE questions, providing a scalable solution for adoption.
- Abstract(参考訳): コード理解スキルの評価には「平易な英語で説明する」(EiPE)質問が広く使われているが、自動評価は難しい。
Code Generation Based Grading (CGBG)のような最近のアプローチでは、大規模な言語モデル(LLM)を活用して、学生の説明からコードを生成し、ユニットテストを使用して元のコードと等価性を検証する。
しかし、このアプローチは、高レベル、目的重視の応答と低レベル、実装重視の応答とを区別せず、理解度を評価する上での有効性を制限している。
本稿では,学生が関数名を生成する手法を提案し,実装の詳細よりも関数の目的を強調する。
本稿では,本手法を導入プログラミングコースで評価し,項目応答理論(IRT)を用いて評価し,試験項目としての有効性と従来のEePEグレーティング標準との整合性を明らかにする。
また、この成果をオープンソースのPythonパッケージとして公開し、EePEの質問を自動分解し、採用のためのスケーラブルなソリューションを提供しています。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。
この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-01-28T15:41:54Z) - Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。
本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文 参考訳(メタデータ) (2024-11-12T13:14:09Z) - Sifting through the Chaff: On Utilizing Execution Feedback for Ranking the Generated Code Candidates [46.74037090843497]
大規模言語モデル(LLM)は、自然言語記述に基づいたコードの自動生成によって、開発者がプログラミングにアプローチする方法を変えつつある。
本稿では,実行フィードバックを活用するコードランキングの革新的なアプローチである RankEF について述べる。
3つのコード生成ベンチマークの実験では、RanEFが最先端のCodeRankerよりも大幅に優れていることが示されている。
論文 参考訳(メタデータ) (2024-08-26T01:48:57Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - Explaining Code with a Purpose: An Integrated Approach for Developing
Code Comprehension and Prompting Skills [4.776920192249936]
我々は,EePE質問に対する学生の回答に基づいて,LLMを用いてコードを生成することを提案する。
我々は,EePEの問題解決に有効なプロンプトの作成に学生が成功したことを報告した。
論文 参考訳(メタデータ) (2024-03-10T00:23:08Z) - Code Generation Based Grading: Evaluating an Auto-grading Mechanism for
"Explain-in-Plain-English" Questions [0.0]
コード生成ベースグラディング(CGBG)は、人間の学年と適度に合意する。
CGBGは、コードの低レベルおよびライン・バイ・ライン記述に関して、人間のグレードラーと適度に合意する。
論文 参考訳(メタデータ) (2023-11-25T02:45:00Z) - FIND: A Function Description Benchmark for Evaluating Interpretability
Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。
FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。
本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文 参考訳(メタデータ) (2023-09-07T17:47:26Z) - Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。
我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。
我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文 参考訳(メタデータ) (2020-10-01T15:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。