論文の概要: Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems
- arxiv url: http://arxiv.org/abs/2604.07304v1
- Date: Wed, 08 Apr 2026 17:11:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 17:30:51.655062
- Title: Chatbot-Based Assessment of Code Understanding in Automated Programming Assessment Systems
- Title(参考訳): チャットボットによる自動プログラミングアセスメントシステムにおけるコード理解の評価
- Authors: Eduard Frankford, Erik Cikalleshi, Ruth Breu,
- Abstract要約: 本稿では,プログラミング教育における会話アセスメントアプローチの飽和に基づくスコーピングレビューについて報告する。
このレビューでは、ルールベースまたはテンプレート駆動システム、LLMベースのシステム、ハイブリッドシステムの3つの主要なアーキテクチャファミリを特定している。
本稿では,これらの知見を,対話型検証を自動プログラミングアセスメントシステムに統合するハイブリッドソクラティックフレームワークに合成する。
- 参考スコア(独自算出の注目度): 1.0705399532413615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) challenge conventional automated programming assessment because students can now produce functionally correct code without demonstrating corresponding understanding. This paper makes two contributions. First, it reports a saturation-based scoping review of conversational assessment approaches in programming education. The review identifies three dominant architectural families: rule-based or template-driven systems, LLM-based systems, and hybrid systems. Across the literature, conversational agents appear promising for scalable feedback and deeper probing of code understanding, but important limitations remain around hallucinations, over-reliance, privacy, integrity, and deployment constraints. Second, the paper synthesizes these findings into a Hybrid Socratic Framework for integrating conversational verification into Automated Programming Assessment Systems (APASs). The framework combines deterministic code analysis with a dual-agent conversational layer, knowledge tracking, scaffolded questioning, and guardrails that tie prompts to runtime facts. The paper also discusses practical safeguards against LLM-generated explanations, including proctored deployment modes, randomized trace questions, stepwise reasoning tied to concrete execution states, and local-model deployment options for privacy-sensitive settings. Rather than replacing conventional testing, the framework is intended as a complementary layer for verifying whether students understand the code they submit.
- Abstract(参考訳): 大規模言語モデル(LLM)は、学生が対応する理解を示さずに機能的に正しいコードを生成することができるため、従来の自動プログラムアセスメントに挑戦する。
この論文には2つの貢献がある。
まず,プログラミング教育における会話アセスメントアプローチの飽和に基づくスコーピングレビューを報告する。
このレビューでは、ルールベースまたはテンプレート駆動システム、LLMベースのシステム、ハイブリッドシステムの3つの主要なアーキテクチャファミリを特定している。
文献全体では、対話エージェントはスケーラブルなフィードバックとコード理解のより深い調査を約束しているが、幻覚、過度な信頼性、プライバシ、整合性、デプロイメントの制約に関する重要な制限が残っている。
第2に,これらの知見を対話型検証を自動プログラミング評価システム(APAS)に統合するハイブリッド・ソクラティック・フレームワークに合成する。
このフレームワークは、決定論的コード分析と、二重エージェントの会話層、知識追跡、足場による質問、および実行時の事実にプロンプトを結びつけるガードレールを組み合わせる。
また,LLMの生成した説明に対する実践的安全対策として,事前配置モード,ランダム化トレース問題,具体的な実行状態に関連付けられた段階的推論,プライバシに敏感な設定のためのローカルモデルデプロイメントオプションなどについて論じる。
従来のテストを置き換えるのではなく、このフレームワークは、学生が提出したコードを理解するかどうかを検証するための補完的なレイヤとして意図されている。
関連論文リスト
- Beyond Holistic Scores: Automatic Trait-Based Quality Scoring of Argumentative Essays [15.895792302323883]
教育の文脈では、教師と学習者は解釈可能な特性レベルのフィードバックを必要とする。
本稿では,2つの相補的モデリングパラダイムを用いた特徴量に基づく自動弁別評価手法について検討する。
スコア・オーディナリティを明示的にモデル化することは、人間のレーダとの合意を著しく改善することを示します。
論文 参考訳(メタデータ) (2026-02-04T14:30:52Z) - The Vibe-Check Protocol: Quantifying Cognitive Offloading in AI Programming [5.584060970507507]
Vibe Coding'は、開発者が自然言語を通じてハイレベルな意図を明確に表現し、AIエージェントに実装を委譲するパラダイムである。
本稿では,ソフトウェア工学の学習方法としてテキストIs Vibe Codingが優れているか,という研究課題を解明するための理論的枠組みを提案する。
論文 参考訳(メタデータ) (2026-01-02T06:13:41Z) - Rethinking Testing for LLM Applications: Characteristics, Challenges, and a Lightweight Interaction Protocol [83.83217247686402]
大言語モデル(LLM)は、単純なテキストジェネレータから、検索強化、ツール呼び出し、マルチターンインタラクションを統合する複雑なソフトウェアシステムへと進化してきた。
その固有の非決定主義、ダイナミズム、文脈依存は品質保証に根本的な課題をもたらす。
本稿では,LLMアプリケーションを3層アーキテクチャに分解する: textbftextitSystem Shell Layer, textbftextitPrompt Orchestration Layer, textbftextitLLM Inference Core。
論文 参考訳(メタデータ) (2025-08-28T13:00:28Z) - MERA Code: A Unified Framework for Evaluating Code Generation Across Tasks [56.34018316319873]
我々は,最新のLLMをロシア語で評価するためのベンチマークであるMERA Codeを提案する。
このベンチマークには、8つのプログラミング言語にまたがる11の評価タスクが含まれている。
我々はオープンなLLMとフロンティアAPIモデルを評価し、非英語言語における実用的なコーディングタスクの観点からそれらの制限を分析した。
論文 参考訳(メタデータ) (2025-07-16T14:31:33Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - ReDefining Code Comprehension: Function Naming as a Mechanism for Evaluating Code Comprehension [2.250363093539224]
コード理解スキルの評価には「平易な英語で説明する」(EiPE)質問が広く用いられている。
Code Generation Based Grading (CGBG)のような最近のアプローチでは、大きな言語モデルを利用してコードを生成する。
本稿では,学生が関数名を生成する手法を提案し,実装の詳細よりも関数の目的を強調する。
論文 参考訳(メタデータ) (2025-03-15T17:22:14Z) - Auto-PRE: An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [52.76508734756661]
Auto-PREはピアレビュープロセスにインスパイアされた自動評価フレームワークである。
人間のアノテーションに依存する従来のアプローチとは異なり、Auto-PREは自動的に3つのコア特性に基づいて評価子を選択する。
要約,非ファクトイドQA,対話生成を含む3つの代表的なタスクの実験は,Auto-PREが最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-10-16T06:06:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。