論文の概要: AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts
- arxiv url: http://arxiv.org/abs/2507.05321v1
- Date: Mon, 07 Jul 2025 15:50:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.269668
- Title: AGACCI : Affiliated Grading Agents for Criteria-Centric Interface in Educational Coding Contexts
- Title(参考訳): AGACCI : 教育的コーディング文脈における基準中心インタフェースのためのアフィリエイト・グラディング・エージェント
- Authors: Kwangsuk Park, Jiwoong Yang,
- Abstract要約: 本稿では,協調エージェント間で専門的な評価を分散するマルチエージェントシステムAGACCIを紹介する。
AGACCIは、ルーブリックとフィードバックの正確性、妥当性、一貫性、一貫性の点で、単一のGPTベースのベースラインを上回っている。
- 参考スコア(独自算出の注目度): 0.6050976240234864
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in AI-assisted education have encouraged the integration of vision-language models (VLMs) into academic assessment, particularly for tasks that require both quantitative and qualitative evaluation. However, existing VLM based approaches struggle with complex educational artifacts, such as programming tasks with executable components and measurable outputs, that require structured reasoning and alignment with clearly defined evaluation criteria. We introduce AGACCI, a multi-agent system that distributes specialized evaluation roles across collaborative agents to improve accuracy, interpretability, and consistency in code-oriented assessment. To evaluate the framework, we collected 360 graduate-level code-based assignments from 60 participants, each annotated by domain experts with binary rubric scores and qualitative feedback. Experimental results demonstrate that AGACCI outperforms a single GPT-based baseline in terms of rubric and feedback accuracy, relevance, consistency, and coherence, while preserving the instructional intent and evaluative depth of expert assessments. Although performance varies across task types, AGACCI highlights the potential of multi-agent systems for scalable and context-aware educational evaluation.
- Abstract(参考訳): 近年のAI支援教育の進歩は、視覚言語モデル(VLM)を学術的評価、特に量的および質的な評価を必要とするタスクに統合することを奨励している。
しかしながら、既存のVLMベースのアプローチは、実行可能コンポーネントによるプログラミングタスクや測定可能な出力など、明確に定義された評価基準と構造化された推論と整合性を必要とする複雑な教育成果物に苦慮している。
我々は、コード指向評価における精度、解釈可能性、一貫性を向上させるために、協調エージェント間で特別な評価ロールを分散するマルチエージェントシステムAGACCIを紹介する。
このフレームワークを評価するために,60名の参加者から360名の卒業生レベルのコードベースの課題を収集した。
実験結果から,AGACCIは1つのGPTベースのベースラインを,学習意図と評価深度を維持しつつ,ルーリックとフィードバックの精度,妥当性,一貫性,コヒーレンスで上回っていることが明らかとなった。
タスクタイプによってパフォーマンスは異なるが、AGACCIはスケーラブルでコンテキスト対応の教育評価のためのマルチエージェントシステムの可能性を強調している。
関連論文リスト
- Can LLMs Be Trusted for Evaluating RAG Systems? A Survey of Methods and Datasets [0.0]
近年,RAG(Retrieval-Augmented Generation)が著しく進歩している。
RAGの複雑さは、体系的な評価と品質向上に重大な課題をもたらす。
本研究は,63の学術論文を体系的にレビューし,最新のRAG評価手法を概観する。
論文 参考訳(メタデータ) (2025-04-28T08:22:19Z) - Learning to Align Multi-Faceted Evaluation: A Unified and Robust Framework [61.38174427966444]
大規模言語モデル(LLM)は、様々なシナリオにおける自動評価のために、より広く使われている。
従来の研究では、強力なプロプライエタリモデルの評価と判断を再現するために、オープンソースのLLMを微調整しようと試みてきた。
本稿では,評価基準を適応的に定式化し,テキストベースとコード駆動分析の両方を合成する新しい評価フレームワークARJudgeを提案する。
論文 参考訳(メタデータ) (2025-02-26T06:31:45Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Evaluating General-Purpose AI with Psychometrics [43.85432514910491]
本稿では,大規模言語モデルなどの汎用AIシステムの包括的かつ正確な評価の必要性について論じる。
現在の評価手法は、主に特定のタスクのベンチマークに基づいており、これらの汎用AIシステムを適切に評価するには不十分である。
これらの課題に対処するため,タスク指向評価から構成指向評価への移行を提案する。
論文 参考訳(メタデータ) (2023-10-25T05:38:38Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Modelling Assessment Rubrics through Bayesian Networks: a Pragmatic Approach [40.06500618820166]
本稿では,学習者モデルを直接評価ルーリックから導出する手法を提案する。
本稿では,コンピュータ思考のスキルをテストするために開発された活動の人的評価を自動化するために,この手法を適用する方法について述べる。
論文 参考訳(メタデータ) (2022-09-07T10:09:12Z) - Towards a multi-stakeholder value-based assessment framework for
algorithmic systems [76.79703106646967]
我々は、価値間の近さと緊張を可視化する価値に基づくアセスメントフレームワークを開発する。
我々は、幅広い利害関係者に評価と検討のプロセスを開放しつつ、それらの運用方法に関するガイドラインを提示する。
論文 参考訳(メタデータ) (2022-05-09T19:28:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。