論文の概要: AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition
- arxiv url: http://arxiv.org/abs/2509.21910v1
- Date: Fri, 26 Sep 2025 05:45:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.212691
- Title: AutoSCORE: Enhancing Automated Scoring with Multi-Agent Large Language Models via Structured Component Recognition
- Title(参考訳): AutoSCORE:構造化コンポーネント認識によるマルチエージェント大言語モデルによる自動スコーリングの強化
- Authors: Yun Wang, Zhaojun Ding, Xuansheng Wu, Siyue Sun, Ninghao Liu, Xiaoming Zhai,
- Abstract要約: 大規模言語モデル(LLM)は、自動スコアリングにおいて大きな可能性を示している。
エンド・ツー・エンドのレーダとしての使用は、低い正確性、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
本稿では,多エージェント LLM フレームワークである AutoSCORE を提案する。
- 参考スコア(独自算出の注目度): 27.312190686305588
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated scoring plays a crucial role in education by reducing the reliance on human raters, offering scalable and immediate evaluation of student work. While large language models (LLMs) have shown strong potential in this task, their use as end-to-end raters faces challenges such as low accuracy, prompt sensitivity, limited interpretability, and rubric misalignment. These issues hinder the implementation of LLM-based automated scoring in assessment practice. To address the limitations, we propose AutoSCORE, a multi-agent LLM framework enhancing automated scoring via rubric-aligned Structured COmponent REcognition. With two agents, AutoSCORE first extracts rubric-relevant components from student responses and encodes them into a structured representation (i.e., Scoring Rubric Component Extraction Agent), which is then used to assign final scores (i.e., Scoring Agent). This design ensures that model reasoning follows a human-like grading process, enhancing interpretability and robustness. We evaluate AutoSCORE on four benchmark datasets from the ASAP benchmark, using both proprietary and open-source LLMs (GPT-4o, LLaMA-3.1-8B, and LLaMA-3.1-70B). Across diverse tasks and rubrics, AutoSCORE consistently improves scoring accuracy, human-machine agreement (QWK, correlations), and error metrics (MAE, RMSE) compared to single-agent baselines, with particularly strong benefits on complex, multi-dimensional rubrics, and especially large relative gains on smaller LLMs. These results demonstrate that structured component recognition combined with multi-agent design offers a scalable, reliable, and interpretable solution for automated scoring.
- Abstract(参考訳): 自動スコアリングは、人間のラッカーへの依存を減らし、スケーラブルで即時的な学生作業の評価を提供することによって、教育において重要な役割を担っている。
大規模言語モデル(LLM)はこのタスクに強い可能性を示しているが、エンド・ツー・エンドのレーダとしての使用は、低い精度、迅速な感度、限定的な解釈可能性、ルーリックなミスアライメントといった課題に直面している。
これらの課題は、評価実践におけるLLMに基づく自動スコアリングの実装を妨げる。
この制限に対処するため,多エージェントLLMフレームワークであるAutoSCOREを提案する。
2つのエージェントで、AutoSCOREはまず学生の反応からルブリック関連成分を抽出し、それらを構造化された表現(Scoring Rubric Component extract Agent)にエンコードし、最終的なスコア(Scoring Agent)を割り当てる。
この設計は、モデル推論が人間のような格付けプロセスに従うことを保証し、解釈可能性と堅牢性を高める。
我々は,ASAPベンチマークの4つのベンチマークデータセット上で,プロプライエタリおよびオープンソースLLM(GPT-4o,LLaMA-3.1-8B,LLaMA-3.1-70B)を用いてAutoSCOREを評価する。
多様なタスクやルーブリックにまたがって、AutoSCOREは、シングルエージェントベースラインと比較して、スコアの精度、人間-機械の合意(QWK、相関)、エラーメトリクス(MAE、RMSE)を一貫して改善し、特に複雑な多次元ルーブリック、特により小さなLLMにおける大きな相対的な利得に強い恩恵を与える。
これらの結果は、構造化されたコンポーネント認識とマルチエージェント設計を組み合わせることで、自動スコアリングのためのスケーラブルで信頼性があり、解釈可能なソリューションが提供されることを示している。
関連論文リスト
- Towards Adaptive ML Benchmarks: Web-Agent-Driven Construction, Domain Expansion, and Metric Optimization [8.356074728041202]
TAM Benchは、エンドツーエンドの機械学習タスクで大規模言語モデル(LLM)を評価するためのベンチマークである。
3つの重要なイノベーションは、ブラウザの自動化とLLMベースのタスク獲得システムである。
150のキュレートされたAutoMLタスクに基づいて、異なるサイズのベンチマークサブセットを3つ構築する。
論文 参考訳(メタデータ) (2025-09-11T10:10:48Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - SPARE: Single-Pass Annotation with Reference-Guided Evaluation for Automatic Process Supervision and Reward Modelling [58.05959902776133]
私たちはSingle-Passを紹介します。
Reference-Guided Evaluation (SPARE)は、効率的なステップごとのアノテーションを可能にする新しい構造化フレームワークである。
数学的推論(GSM8K, MATH)、マルチホップ質問応答(MuSiQue-Ans)、空間推論(SpaRP)にまたがる4つの多様なデータセットにおけるSPAREの有効性を実証する。
ProcessBenchでは、SPAREがデータ効率のよいアウト・オブ・ディストリビューションの一般化を実証し、トレーニングサンプルの$sim$16%しか使用していない。
論文 参考訳(メタデータ) (2025-06-18T14:37:59Z) - AutoJudger: An Agent-Driven Framework for Efficient Benchmarking of MLLMs [24.403284945948272]
AutoJudgerはマルチモーダルな大規模言語モデルの効率的かつ適応的なベンチマークのためのエージェント駆動フレームワークである。
AutoJudgerは、アイテム応答理論(IRT)を用いて、質問の難易度を推定し、自律的な評価エージェントを使用して最も情報性の高いテスト質問を動的に選択する。
論文 参考訳(メタデータ) (2025-05-27T16:17:15Z) - Integrating Counterfactual Simulations with Language Models for Explaining Multi-Agent Behaviour [26.04296415316974]
AXIS(Interrogative Simulation)を用いたエージェントeXplanationを提案する。
AXISは、事前訓練されたマルチエージェントポリシーに対して、理解不能な因果説明を生成する。
5LLMの10シナリオにわたる自律走行におけるAXISの評価を行った。
論文 参考訳(メタデータ) (2025-05-23T12:19:18Z) - GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics [9.549568621873386]
GateLensは、自動車分野のデータ分析のためのLLMベースのシステムである。
遅くて不透明でメンテナンスにコストがかかる従来のマルチエージェントや計画ベースのシステムとは異なり、GateLensはスピード、透明性、信頼性を強調している。
論文 参考訳(メタデータ) (2025-03-27T17:48:32Z) - A Cooperative Multi-Agent Framework for Zero-Shot Named Entity Recognition [71.61103962200666]
ゼロショット名付きエンティティ認識(NER)は、注釈のないテキストコーパスからエンティティ認識システムを開発することを目的としている。
最近の研究は、特別なプロンプトテンプレートを作成することで、ゼロショットNERに大規模な言語モデル(LLM)を適用している。
ゼロショットNERのための新しいフレームワークである協調型マルチエージェントシステム(CMAS)を紹介する。
論文 参考訳(メタデータ) (2025-02-25T23:30:43Z) - TestAgent: Automatic Benchmarking and Exploratory Interaction for Evaluating LLMs in Vertical Domains [19.492393243160244]
大規模言語モデル(LLM)は、高度に専門化された垂直ドメインにデプロイされることが多い。
既存の垂直領域の評価は、通常、静的な単一ターンデータセットの労働集約的な構築に依存している。
垂直領域における自動ベンチマークと探索動的評価のためのフレームワークであるTestAgentを提案する。
論文 参考訳(メタデータ) (2024-10-15T11:20:42Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。