論文の概要: Counting the Trees in the Forest: Evaluating Prompt Segmentation for Classifying Code Comprehension Level
- arxiv url: http://arxiv.org/abs/2503.12216v1
- Date: Sat, 15 Mar 2025 17:57:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:00:53.821162
- Title: Counting the Trees in the Forest: Evaluating Prompt Segmentation for Classifying Code Comprehension Level
- Title(参考訳): 森林における樹木の数え方:コードの理解度を分類するためのプロンプトセグメンテーションの評価
- Authors: David H. Smith IV, Max Fowler, Paul Denny, Craig Zilles,
- Abstract要約: 本稿では,平易な英語の質問に対する説明文に対する理解度を自動的に評価する新しい手法を提案する。
本研究では,Large Language Model (LLM) を用いて,学生の記述とコードの両方を分割し,各行を個別に記述するか否か(多くのセグメント),あるいはコード全体を決定することを目的とする。
- 参考スコア(独自算出の注目度): 2.250363093539224
- License:
- Abstract: Reading and understanding code are fundamental skills for novice programmers, and especially important with the growing prevalence of AI-generated code and the need to evaluate its accuracy and reliability. ``Explain in Plain English'' questions are a widely used approach for assessing code comprehension, but providing automated feedback, particularly on comprehension levels, is a challenging task. This paper introduces a novel method for automatically assessing the comprehension level of responses to ``Explain in Plain English'' questions. Central to this is the ability to distinguish between two response types: multi-structural, where students describe the code line-by-line, and relational, where they explain the code's overall purpose. Using a Large Language Model (LLM) to segment both the student's description and the code, we aim to determine whether the student describes each line individually (many segments) or the code as a whole (fewer segments). We evaluate this approach's effectiveness by comparing segmentation results with human classifications, achieving substantial agreement. We conclude with how this approach, which we release as an open source Python package, could be used as a formative feedback mechanism.
- Abstract(参考訳): コードを読み、理解することは初心者プログラマにとって基本的なスキルであり、特にAI生成コードの増加と、その正確性と信頼性を評価する必要性において重要である。
の質問は、コード理解を評価するために広く使われているアプローチですが、特に理解レベルにおいて、自動的なフィードバックを提供することは難しい作業です。
本稿では,「平易な英語」質問に対する理解度を自動的に評価する新しい手法を提案する。
この中心にあるのは、2つの応答タイプを区別する能力である: 学生がコード行ごとに記述するマルチ構造と、コード全体の目的を説明するリレーショナルである。
本研究では,Large Language Model (LLM) を用いて,学生の記述とコードの両方を分割し,各行を個別に記述するか(多くのセグメント)それとも全体として記述するかを判断することを目的とする。
本手法の有効性は,セグメント化の結果と人間の分類を比較し,実質的な合意を得ることによって評価する。
我々は、オープンソースPythonパッケージとしてリリースしたこのアプローチが、形式的なフィードバックメカニズムとしてどのように使用できるのかを結論付けました。
関連論文リスト
- Towards Identifying Code Proficiency through the Analysis of Python Textbooks [7.381102801726683]
目的は、開発者がソースコードの一部を理解する必要がある熟練度を測定することである。
専門家の意見や開発者調査に大きく依存した以前の試みは、かなりの相違を招いた。
本稿では,Python プログラミング教科書の体系的解析を通じて,Python の能力レベルを同定する手法を提案する。
論文 参考訳(メタデータ) (2024-08-05T06:37:10Z) - Code Generation Based Grading: Evaluating an Auto-grading Mechanism for
"Explain-in-Plain-English" Questions [0.0]
コード生成ベースグラディング(CGBG)は、人間の学年と適度に合意する。
CGBGは、コードの低レベルおよびライン・バイ・ライン記述に関して、人間のグレードラーと適度に合意する。
論文 参考訳(メタデータ) (2023-11-25T02:45:00Z) - Description-Enhanced Label Embedding Contrastive Learning for Text
Classification [65.01077813330559]
モデル学習プロセスにおける自己監督型学習(SSL)と新しい自己監督型関係関係(R2)分類タスクの設計
テキスト分類とR2分類を最適化対象として扱うテキスト分類のための関係学習ネットワーク(R2-Net)の関係について検討する。
ラベルセマンティックラーニングのためのマルチアスペクト記述を得るためのWordNetからの外部知識。
論文 参考訳(メタデータ) (2023-06-15T02:19:34Z) - Python Code Generation by Asking Clarification Questions [57.63906360576212]
本稿では,この課題に対して,より斬新で現実的なセットアップを導入する。
我々は、自然言語記述の過小評価は、明確化を問うことで解決できると仮定する。
我々は、生成した合成明確化質問と回答を含む自然言語記述とコードのペアを含む、CodeClarQAという新しいデータセットを収集し、導入する。
論文 参考訳(メタデータ) (2022-12-19T22:08:36Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - Supporting Vision-Language Model Inference with Confounder-pruning Knowledge Prompt [71.77504700496004]
視覚言語モデルは、オープンセットの視覚概念を扱うために、画像とテキストのペアを共通の空間に整列させることで事前訓練される。
事前訓練されたモデルの転送可能性を高めるため、最近の研究では、固定または学習可能なプロンプトが採用されている。
しかし、どのようにして、どのプロンプトが推論性能を改善するのかは、まだ不明である。
論文 参考訳(メタデータ) (2022-05-23T07:51:15Z) - ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。
メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。
本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文 参考訳(メタデータ) (2021-07-23T22:41:28Z) - Hierarchical Bi-Directional Self-Attention Networks for Paper Review
Rating Recommendation [81.55533657694016]
本稿では,階層型双方向自己注意ネットワークフレームワーク(HabNet)を提案する。
具体的には、文エンコーダ(レベル1)、レビュー内エンコーダ(レベル2)、レビュー間エンコーダ(レベル3)の3つのレベルで、論文レビューの階層構造を利用する。
我々は、最終的な受理決定を行う上で有用な予測者を特定することができ、また、数値的なレビュー評価とレビュアーが伝えるテキストの感情の不整合を発見するのに役立てることができる。
論文 参考訳(メタデータ) (2020-11-02T08:07:50Z) - Quantifying Learnability and Describability of Visual Concepts Emerging
in Representation Learning [91.58529629419135]
我々は、ディープニューラルネットワークによって自動的に発見された視覚的なグルーピングを特徴付ける方法を検討する。
本稿では、任意の画像グループ化の解釈可能性の定量化に使用できる視覚的学習可能性と記述可能性という2つの概念を紹介する。
論文 参考訳(メタデータ) (2020-10-27T18:41:49Z) - Word Embedding-based Text Processing for Comprehensive Summarization and
Distinct Information Extraction [1.552282932199974]
オンラインレビューの分析に特化して設計された2つの自動テキスト処理フレームワークを提案する。
最初のフレームワークは、本質的な文章を抽出してレビューデータセットを要約することである。
第2のフレームワークは、複数の異なる質問に対する回答を抽出するように訓練された質問回答ニューラルネットワークモデルに基づいている。
論文 参考訳(メタデータ) (2020-04-21T02:43:31Z) - Key Phrase Classification in Complex Assignments [5.067828201066184]
キーフレーズの分類作業は,人間レベルでは曖昧であり,新しいデータセット上でコーエンのカッパが0.77であることを示す。
事前訓練された言語モデルと単純なTFIDF SVM分類器の両方が、前者の生成平均0.6 F1が後者よりも高い結果を生成する。
論文 参考訳(メタデータ) (2020-03-16T04:25:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。