Fugu-MT 論文翻訳(概要): SimGrade: Using Code Similarity Measures for More Accurate Human Grading

論文の概要: SimGrade: Using Code Similarity Measures for More Accurate Human Grading

arxiv url: http://arxiv.org/abs/2403.14637v1
Date: Mon, 19 Feb 2024 23:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 03:52:54.850195
Title: SimGrade: Using Code Similarity Measures for More Accurate Human Grading
Title（参考訳）: SimGrade: より正確な人間の彫刻にコードの類似性対策を使う
Authors: Sonja Johnson-Yu, Nicholas Bowman, Mehran Sahami, Chris Piech,
Abstract要約: CS1講座では,不正確で矛盾のない自由応答型プログラミング問題の段階化が広く行われていることを示す。そこで本稿では, 学生の応募を小学校の生徒に割り当てるアルゴリズムを提案し, (2) 受験者が以前同様の解を見た確率を最大化するために, 受験者を発注するアルゴリズムを提案する。
参考スコア（独自算出の注目度）: 5.797317782326566
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While the use of programming problems on exams is a common form of summative assessment in CS courses, grading such exam problems can be a difficult and inconsistent process. Through an analysis of historical grading patterns we show that inaccurate and inconsistent grading of free-response programming problems is widespread in CS1 courses. These inconsistencies necessitate the development of methods to ensure more fairer and more accurate grading. In subsequent analysis of this historical exam data we demonstrate that graders are able to more accurately assign a score to a student submission when they have previously seen another submission similar to it. As a result, we hypothesize that we can improve exam grading accuracy by ensuring that each submission that a grader sees is similar to at least one submission they have previously seen. We propose several algorithms for (1) assigning student submissions to graders, and (2) ordering submissions to maximize the probability that a grader has previously seen a similar solution, leveraging distributed representations of student code in order to measure similarity between submissions. Finally, we demonstrate in simulation that these algorithms achieve higher grading accuracy than the current standard random assignment process used for grading.
Abstract（参考訳）: 試験におけるプログラミング問題の利用は、CSコースにおける要約的評価の一般的な形態であるが、そのような試験問題を格付けすることは困難かつ矛盾するプロセスである。歴史的グレーティングパターンの分析を通して、CS1コースにおいて、自由応答プログラミング問題の不正確で一貫性のないグレーディングが広く行われていることを示す。これらの矛盾は、より公平で正確なグレーディングを保証する方法の開発を必要とする。この履歴試験データを解析した結果,学生がこれまで類似した論文を目にしたとき,より正確なスコアを学生に提出できることが判明した。その結果, 受験者が見た各受験者が, これまでに見た少なくとも1件の受験に類似していることを保証することで, 受験成績の精度を向上させることができると仮定した。そこで本稿では,(1) 学生の応募を学士に割り当てるアルゴリズムを提案し,(2) 受験者が以前に類似した解を見た確率を最大化するために,学生コードの分散表現を活用して,受験者の類似度を測定する。最後に、これらのアルゴリズムは、現在の標準乱数割当プロセスよりも高い階調精度を実現することをシミュレーションで示している。

関連論文リスト

Evaluating Generative AI for CS1 Code Grading: Direct vs Reverse Methods [0.0]
本稿では、AIモデルが学生コードに直接ルーブリックを適用する textitDirect と、AIが最初にエラーを修正し、その性質と修正数に基づいてグレードを推定する textitReverse (新たに提案されたアプローチ) の2つのAIベースのグレード技術を比較した。本稿では,ハイブリッドAIグレーティングシステムにおける,それぞれのアプローチの強みと限界,迅速な設計のための実践的考察,今後の方向性について論じる。
論文参考訳（メタデータ） (2025-11-17T01:38:06Z)
CombiGraph-Vis: A Curated Multimodal Olympiad Benchmark for Discrete Mathematical Reasoning [3.609560822507327]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文参考訳（メタデータ） (2025-10-31T01:31:58Z)
RefGrader: Automated Grading of Mathematical Competition Proofs using Agentic Workflows [8.700422995850152]
State-of-the-art (SOTA) LLMは、証明ベースのOlympiad問題から、IMO 2025問題のほとんどを解決するまで、進歩してきた。本稿では,90 Gemini 2.5 Pro生成ソリューションのコーパスを用いて,詳細なエラーアノテーションを用いた1-4スケールで評価を行った。分析の結果、モデルが不正確な解を確実にフラグ付けできるが、部分クレジットの割り当て方法にキャリブレーションのギャップがあることがわかった。
論文参考訳（メタデータ） (2025-10-10T05:47:40Z)
CPRet: A Dataset, Benchmark, and Model for Retrieval in Competitive Programming [56.17331530444765]
CPRetは、競合プログラミングのための検索指向ベンチマークスイートである。 2つのコード中心タスク(Text-to-CodeとCode-to-Code)と、新たに提案された2つの問題中心タスク(Issue-to-DuplicateとSimplified-to-Full)である。私たちのコントリビューションには、高品質なトレーニングデータと、信頼性評価のための時間的に分離されたテストセットの両方が含まれています。
論文参考訳（メタデータ） (2025-05-19T10:07:51Z)
CASET: Complexity Analysis using Simple Execution Traces for CS* submissions [0.0]
CS1 や CS2 コースで学生の提出を自動アップグレードする最も一般的な方法は、事前に定義されたテストスイートに対して実行し、結果と参照結果を比較することである。この手法は、解の正しさが、結果を得るために使われるアルゴリズムのような単純な出力を超えると利用できない。動的トレースと教師なし機械学習を用いてアルゴリズムの時間的複雑さを解析する新しいツールCASETを提案する。
論文参考訳（メタデータ） (2024-10-20T15:29:50Z)
Computer Aided Design and Grading for an Electronic Functional Programming Exam [0.0]
本稿では,既存の編集距離に基づくアルゴリズムと比較して公平性を向上させる証明ラインの正しいシーケンスを探索し,Proof Puzzlesをチェックするアルゴリズムを提案する。正規表現を指定するための高レベルな言語とオープンソースツールにより、複雑な正規表現の作成はエラーを起こしやすい。学習過程における自動化の度合いを分析し,学生に意見を求め,自身の経験を批判的にレビューすることで,その結果のe-examを評価する。
論文参考訳（メタデータ） (2023-08-14T07:08:09Z)
A Gold Standard Dataset for the Reviewer Assignment Problem [117.59690218507565]
類似度スコア(Similarity score)とは、論文のレビューにおいて、レビュアーの専門知識を数値で見積もるものである。私たちのデータセットは、58人の研究者による477の自己申告された専門知識スコアで構成されています。 2つの論文をレビュアーに関連付けるタスクは、簡単なケースでは12%～30%、ハードケースでは36%～43%である。
論文参考訳（メタデータ） (2023-03-23T16:15:03Z)
Better Peer Grading through Bayesian Inference [13.113568233352986]
ピアグレーティングシステムは、複数の学生からのノイズの多いレポートを集約し、可能な限り真のグレードを近似する。本稿では,(1)学生が戦略的に行動できることを認識すること,(2)離散的に評価されたグレーディング・ルーリックから生じる検閲されたデータを適切に扱うこと,(3)混成整数プログラミングを用いて,学生に割り当てられた学級の解釈性を向上させること,の3つの重要な方法について述べる。
論文参考訳（メタデータ） (2022-09-02T19:10:53Z)
Label Matching Semi-Supervised Object Detection [85.99282969977541]
半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。ラベルミスマッチ問題は、以前の研究でまだ完全に解明されていないため、自己学習中に重大な確証バイアスが生じる。本稿では,2つの異なる相補的視点から,単純かつ効果的な LabelMatch フレームワークを提案する。
論文参考訳（メタデータ） (2022-06-14T05:59:41Z)
Modeling and Correcting Bias in Sequential Evaluation [10.852140754372193]
逐次評価の問題は、評価者が連続して候補者を観察し、これらの候補者にオンラインで不可解な方法でスコアを割り当てることである。このような環境下での逐次バイアスを研究してきた心理学文献に触発され,評価者の評価過程の自然なモデルを提案する。クラウドソーシング実験を行い、モデルの様々な側面を実証する。
論文参考訳（メタデータ） (2022-05-03T16:38:13Z)
Deep Probabilistic Graph Matching [72.6690550634166]
本稿では,マッチング制約を伴わずに,元のQAPに適合する深層学習ベースのグラフマッチングフレームワークを提案する。提案手法は,一般的な3つのベンチマーク(Pascal VOC,Wilow Object,SPair-71k)で評価され,すべてのベンチマークにおいて過去の最先端よりも優れていた。
論文参考訳（メタデータ） (2022-01-05T13:37:27Z)
ProtoTransformer: A Meta-Learning Approach to Providing Student Feedback [54.142719510638614]
本稿では,フィードバックを数発の分類として提供するという課題について考察する。メタラーナーは、インストラクターによるいくつかの例から、新しいプログラミング質問に関する学生のコードにフィードバックを与えるように適応します。本手法は,第1段階の大学が提供したプログラムコースにおいて,16,000名の学生試験ソリューションに対するフィードバックの提供に成功している。
論文参考訳（メタデータ） (2021-07-23T22:41:28Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Pseudo-Convolutional Policy Gradient for Sequence-to-Sequence Lip-Reading [96.48553941812366]
唇読解は唇運動系列から音声内容を推測することを目的としている。 seq2seqモデルの伝統的な学習プロセスには2つの問題がある。本稿では,これら2つの問題に対処するために,PCPGに基づく新しい手法を提案する。
論文参考訳（メタデータ） (2020-03-09T09:12:26Z)
An end-to-end approach for the verification problem: learning the right distance [15.553424028461885]
パラメトリックな擬似距離を導入し、エンコーダと共同で学習することで、メトリック学習の設定を強化する。まず、仮説テストに使用できる確率比を近似して示す。提案手法では,実際の距離を持つメートル法学習に比べて,学習の簡易化が図られている。
論文参考訳（メタデータ） (2020-02-21T18:46:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。