Fugu-MT 論文翻訳(概要): ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension

論文の概要: ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension

arxiv url: http://arxiv.org/abs/2503.12207v1
Date: Sat, 15 Mar 2025 17:22:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-18 14:56:57.781749
Title: ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension
Title（参考訳）: コード理解を再定義する: コード理解を評価するメカニズムとしての関数ネーミング
Authors: David H. Smith IV, Max Fowler, Paul Denny, Craig Zilles,
Abstract要約: コード理解スキルの評価には「平易な英語で説明する」(EiPE)質問が広く用いられている。 Code Generation Based Grading (CGBG)のような最近のアプローチでは、大きな言語モデルを利用してコードを生成する。本稿では,学生が関数名を生成する手法を提案し,実装の詳細よりも関数の目的を強調する。
参考スコア（独自算出の注目度）: 2.250363093539224
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: "Explain in Plain English" (EiPE) questions are widely used to assess code comprehension skills but are challenging to grade automatically. Recent approaches like Code Generation Based Grading (CGBG) leverage large language models (LLMs) to generate code from student explanations and validate its equivalence to the original code using unit tests. However, this approach does not differentiate between high-level, purpose-focused responses and low-level, implementation-focused ones, limiting its effectiveness in assessing comprehension level. We propose a modified approach where students generate function names, emphasizing the function's purpose over implementation details. We evaluate this method in an introductory programming course and analyze it using Item Response Theory (IRT) to understand its effectiveness as exam items and its alignment with traditional EiPE grading standards. We also publish this work as an open source Python package for autograding EiPE questions, providing a scalable solution for adoption.
Abstract（参考訳）: コード理解スキルの評価には「平易な英語で説明する」(EiPE)質問が広く使われているが、自動評価は難しい。 Code Generation Based Grading (CGBG)のような最近のアプローチでは、大規模な言語モデル(LLM)を活用して、学生の説明からコードを生成し、ユニットテストを使用して元のコードと等価性を検証する。しかし、このアプローチは、高レベル、目的重視の応答と低レベル、実装重視の応答とを区別せず、理解度を評価する上での有効性を制限している。本稿では,学生が関数名を生成する手法を提案し,実装の詳細よりも関数の目的を強調する。本稿では,本手法を導入プログラミングコースで評価し,項目応答理論(IRT)を用いて評価し,試験項目としての有効性と従来のEePEグレーティング標準との整合性を明らかにする。また、この成果をオープンソースのPythonパッケージとして公開し、EePEの質問を自動分解し、採用のためのスケーラブルなソリューションを提供しています。

関連論文リスト

On Explaining (Large) Language Models For Code Using Global Code-Based Explanations [45.126233498200534]
Language Models for Code (LLM4Code)は、ソフトウェア工学(SE)のランドスケープを大きく変えた。我々は、厳密な数学的基盤を持つ手法であるコード論理(Code$Q$)を導入し、個々のコード予測を説明できるトークンのサブセットを特定する。評価の結果、Code$Q$は意味のある入力概念(すなわち自然言語粒子)が出力生成にどのように影響するかを説明するための強力な解釈可能性法であることがわかった。
論文参考訳（メタデータ） (2025-03-21T01:00:45Z)
Counting the Trees in the Forest: Evaluating Prompt Segmentation for Classifying Code Comprehension Level [2.250363093539224]
本稿では,平易な英語の質問に対する説明文に対する理解度を自動的に評価する新しい手法を提案する。本研究では,Large Language Model (LLM) を用いて,学生の記述とコードの両方を分割し,各行を個別に記述するか否か(多くのセグメント),あるいはコード全体を決定することを目的とする。
論文参考訳（メタデータ） (2025-03-15T17:57:38Z)
Commenting Higher-level Code Unit: Full Code, Reduced Code, or Hierarchical Code Summarization [35.159417478678286]
ファイルレベルやモジュールレベルのコードユニットなど、高レベルのコードユニットの要約に関する研究は、非常に不足している。我々は、高レベルのコードユニットのASCの様々な要約戦略について検討し、完全なコード要約、コード要約の削減、階層的なコード要約の3つのタイプに分けることができる。
論文参考訳（メタデータ） (2025-03-13T16:15:06Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
Automated Refactoring of Non-Idiomatic Python Code: A Differentiated Replication with LLMs [54.309127753635366]
本研究は, GPT-4の有効性について検討し, 慣用行動の推奨と示唆について検討した。この結果から,従来は複雑なコード解析に基づくレコメンデータの実装が求められていた,LCMの課題達成の可能性が浮き彫りになった。
論文参考訳（メタデータ） (2025-01-28T15:41:54Z)
Pointwise Mutual Information as a Performance Gauge for Retrieval-Augmented Generation [78.28197013467157]
文脈と問合せの間のポイントワイドな相互情報は,言語モデルの性能向上に有効な指標であることを示す。本稿では,文書と質問のポイントワイドな相互情報を利用する2つの手法を提案する。
論文参考訳（メタデータ） (2024-11-12T13:14:09Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Explaining Code with a Purpose: An Integrated Approach for Developing Code Comprehension and Prompting Skills [4.776920192249936]
我々は,EePE質問に対する学生の回答に基づいて,LLMを用いてコードを生成することを提案する。我々は,EePEの問題解決に有効なプロンプトの作成に学生が成功したことを報告した。
論文参考訳（メタデータ） (2024-03-10T00:23:08Z)
Introducing User Feedback-based Counterfactual Explanations (UFCE) [49.1574468325115]
対実的説明(CE)は、XAIで理解可能な説明を生成するための有効な解決策として浮上している。 UFCEは、アクション可能な機能のサブセットで最小限の変更を決定するために、ユーザー制約を含めることができる。 UFCEは、textitproximity(英語版)、textitsparsity(英語版)、textitfeasibility(英語版)の2つのよく知られたCEメソッドより優れている。
論文参考訳（メタデータ） (2024-02-26T20:09:44Z)
Code Generation Based Grading: Evaluating an Auto-grading Mechanism for "Explain-in-Plain-English" Questions [0.0]
コード生成ベースグラディング(CGBG)は、人間の学年と適度に合意する。 CGBGは、コードの低レベルおよびライン・バイ・ライン記述に関して、人間のグレードラーと適度に合意する。
論文参考訳（メタデータ） (2023-11-25T02:45:00Z)
FIND: A Function Description Benchmark for Evaluating Interpretability Methods [86.80718559904854]
本稿では,自動解釈可能性評価のためのベンチマークスイートであるFIND(Function Interpretation and Description)を紹介する。 FINDには、トレーニングされたニューラルネットワークのコンポーネントに似た機能と、私たちが生成しようとしている種類の記述が含まれています。本研究では、事前訓練された言語モデルを用いて、自然言語とコードにおける関数の振る舞いの記述を生成する手法を評価する。
論文参考訳（メタデータ） (2023-09-07T17:47:26Z)
Fast Few-Shot Classification by Few-Iteration Meta-Learning [173.32497326674775]
数ショット分類のための高速な最適化に基づくメタラーニング手法を提案する。我々の戦略はメタ学習において学習すべき基礎学習者の目的の重要な側面を可能にする。我々は、我々のアプローチの速度と効果を実証し、総合的な実験分析を行う。
論文参考訳（メタデータ） (2020-10-01T15:59:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。