論文の概要: Specialists or Generalists? Multi-Agent and Single-Agent LLMs for Essay Grading
- arxiv url: http://arxiv.org/abs/2601.22386v1
- Date: Thu, 29 Jan 2026 22:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 18:28:15.112792
- Title: Specialists or Generalists? Multi-Agent and Single-Agent LLMs for Essay Grading
- Title(参考訳): スペシャリスト・ジェネラリスト : マルチエージェント・シングルエージェントLCMによるエッセイグレーディング
- Authors: Jamiu Adekunle Idowu, Ahmed Almasoud,
- Abstract要約: 本稿では,ASAP 2.0コーパスを用いたエッセイグレーディングのための単一エージェントおよびマルチエージェントLLMアーキテクチャについて検討する。
当社のマルチエージェントシステムは,ベトルールやスコアキャッピングを含むルーリック整合論理を実装した議長エージェントによって調整された3つの専門エージェント(Content, Structure, Language)に分解する。
その結果,マルチエージェントシステムは弱いエッセイの同定に優れており,シングルエージェントシステムは中距離エッセイの処理に優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automated essay scoring (AES) systems increasingly rely on large language models, yet little is known about how architectural choices shape their performance across different essay quality levels. This paper evaluates single-agent and multi-agent LLM architectures for essay grading using the ASAP 2.0 corpus. Our multi-agent system decomposes grading into three specialist agents (Content, Structure, Language) coordinated by a Chairman Agent that implements rubric-aligned logic including veto rules and score capping. We test both architectures in zero-shot and few-shot conditions using GPT-5.1. Results show that the multi-agent system is significantly better at identifying weak essays while the single-agent system performs better on mid-range essays. Both architectures struggle with high-quality essays. Critically, few-shot calibration emerges as the dominant factor in system performance -- providing just two examples per score level improves QWK by approximately 26% for both architectures. These findings suggest architectural choice should align with specific deployment priorities, with multi-agent AI particularly suited for diagnostic screening of at-risk students, while single-agent models provide a cost-effective solution for general assessment.
- Abstract(参考訳): 自動エッセイ評価(AES)システムは、ますます大きな言語モデルに依存している。
本稿では,ASAP 2.0コーパスを用いたエッセイグレーディングのための単一エージェントおよびマルチエージェントLLMアーキテクチャについて検討する。
当社のマルチエージェントシステムは,ベトルールやスコアキャッピングを含むルーリック整合論理を実装した議長エージェントによって調整された3つの専門エージェント(Content, Structure, Language)に分解する。
GPT-5.1を用いてゼロショット条件と少数ショット条件で両方のアーキテクチャをテストする。
その結果,マルチエージェントシステムは弱いエッセイの同定に優れており,シングルエージェントシステムは中距離エッセイの処理に優れていた。
どちらの建築も高品質なエッセイに苦戦している。
スコアレベルあたりの2つの例だけを提供することで、両方のアーキテクチャでQWKが約26%向上します。
これらの結果は、アーキテクチャ上の選択は特定のデプロイメント優先順位と一致すべきであり、特にリスクの高い学生の診断スクリーニングに適したマルチエージェントAIと、単一エージェントモデルが一般的な評価のためのコスト効率の高いソリューションを提供することを示唆している。
関連論文リスト
- Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System [1.3052252174353483]
体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
論文 参考訳(メタデータ) (2025-09-21T21:17:23Z) - AgentArch: A Comprehensive Benchmark to Evaluate Agent Architectures in Enterprise [0.0]
本稿では、オーケストレーション戦略、エージェントプロンプト実装(ReAct vs. 関数呼び出し)、メモリアーキテクチャ、思考ツール統合の4つの重要なエージェントシステム側面について検討する。
我々のベンチマークでは、エージェントAIシステムにおいて、一般的なワンサイズ・オールパラダイムに挑戦する、重要なモデル固有のアーキテクチャ上の嗜好を明らかにしている。
論文 参考訳(メタデータ) (2025-09-13T01:18:23Z) - MCP-Orchestrated Multi-Agent System for Automated Disinformation Detection [84.75972919995398]
本稿では,関係抽出を用いてニュース記事の偽情報を検出するマルチエージェントシステムを提案する。
提案したエージェントAIシステムは、(i)機械学習エージェント(ロジスティック回帰)、(ii)Wikipedia知識チェックエージェント、(iv)Webスクラッドデータアナライザの4つのエージェントを組み合わせる。
その結果、マルチエージェントアンサンブルはF1スコア0.964で95.3%の精度を達成し、個々のエージェントや従来のアプローチよりも大幅に優れていた。
論文 参考訳(メタデータ) (2025-08-13T19:14:48Z) - DocR1: Evidence Page-Guided GRPO for Multi-Page Document Understanding [100.29587871213624]
本稿では,新しいRLフレームワークであるEvidence Page-Guided GRPOで学習したMLLMであるDocR1を紹介する。
EviGRPOには、粗大な推論戦略を促進するエビデンス対応報酬機構が組み込まれている。
我々は,DocR1が複数ページのタスクに対して最先端のパフォーマンスを達成し,シングルページのベンチマークにおいて強い結果を維持していることを示す。
論文 参考訳(メタデータ) (2025-08-10T12:03:45Z) - Understanding Software Engineering Agents Through the Lens of Traceability: An Empirical Study [15.97770416681533]
ソフトウェアエンジニアリングエージェント(SWEエージェント)は、ユーザの入力を解釈し、環境フィードバックに応答することで、自律的に動作する。
本稿では,SWEエージェントの動作を,実行トレースのレンズを通してシステマティックに解析する。
論文 参考訳(メタデータ) (2025-06-10T00:41:54Z) - Why Do Multi-Agent LLM Systems Fail? [87.90075668488434]
MAST-Dataは7つの人気のあるMASフレームワークで収集された1600以上の注釈付きトレースの包括的なデータセットである。
我々はMAST(Multi-Agent System Failure Taxonomy)を初めて構築する。
MASTとMAST-Dataを利用して、モデル(GPT4、Claude 3、Qwen2.5、CodeLlama)とタスク(コーディング、数学、汎用エージェント)の障害パターンを分析します。
論文 参考訳(メタデータ) (2025-03-17T19:04:38Z) - On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents [58.79302663733703]
大規模言語モデルに基づくマルチエージェントシステムは、専門家エージェントの協力により、様々なタスクにまたがる優れた能力を示している。
不器用なエージェントや悪意のあるエージェントが与える影響 - システム全体のパフォーマンスにおいて、頻繁にタスクでエラーを犯すものは、いまだに過小評価されていない。
本稿では,下流タスクにおける障害要因下での各種システム構造のレジリエンスについて検討する。
論文 参考訳(メタデータ) (2024-08-02T03:25:20Z) - Agents meet OKR: An Object and Key Results Driven Agent System with
Hierarchical Self-Collaboration and Self-Evaluation [25.308341461293857]
OKR-Agentは、タスク解決におけるLarge Language Models(LLM)の機能を強化するように設計されている。
我々のフレームワークには、階層オブジェクトとキー結果の生成とマルチレベル評価という、2つの新しいモジュールが含まれています。
論文 参考訳(メタデータ) (2023-11-28T06:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。