論文の概要: MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer
- arxiv url: http://arxiv.org/abs/2506.13037v1
- Date: Mon, 16 Jun 2025 02:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.311055
- Title: MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer
- Title(参考訳): MAGIC:マルチエージェント論と文法統合批評
- Authors: Joaquin Jordan, Xavier Yin, Melissa Fabros, Gireeja Ranade, Narges Norouzi,
- Abstract要約: マルチエージェント論と文法統合批評(MAGIC)
フレームワークは、複数の特殊エージェントを使用して、異なる書き込みの側面を評価し、総合的なスコアを予測し、詳細でルーリックなフィードバックを生成する。
- 参考スコア(独自算出の注目度): 4.262223700066747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Essay Scoring (AES) and Automatic Essay Feedback (AEF) systems aim to reduce the workload of human raters in educational assessment. However, most existing systems prioritize numeric scoring accuracy over the quality of feedback. This paper presents Multi-Agent Argumentation and Grammar Integrated Critiquer (MAGIC), a framework that uses multiple specialized agents to evaluate distinct writing aspects to both predict holistic scores and produce detailed, rubric-aligned feedback. To support evaluation, we curated a novel dataset of past GRE practice test essays with expert-evaluated scores and feedback. MAGIC outperforms baseline models in both essay scoring , as measured by Quadratic Weighted Kappa (QWK). We find that despite the improvement in QWK, there are opportunities for future work in aligning LLM-generated feedback to human preferences.
- Abstract(参考訳): AES(Automated Essay Scoring)とAEF(Automatic Essay Feedback)システムは、教育評価における人間のラッカーの負担軽減を目的としている。
しかし、既存のシステムの多くは、フィードバックの品質よりも数値スコアリングの精度を優先している。
本稿では,複数の専門エージェントを用いて,総合的なスコアを予測し,詳細かつルーリックなフィードバックを生成するために,異なる記述側面を評価するためのフレームワークであるMulti-Agent Argumentation and Grammar Integrated Critiquer(MAGIC)を提案する。
評価を支援するため,専門家評価スコアとフィードバックを用いた過去のGRE実践テストエッセイの新しいデータセットをキュレートした。
MAGICは、Quadratic Weighted Kappa (QWK)によって測定されるように、両エッセイ評価においてベースラインモデルより優れている。
我々はQWKの改善にもかかわらず、LLM生成したフィードバックを人間の嗜好に合わせるための今後の取り組みの機会があることを見出した。
関連論文リスト
- RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs [2.324913904215885]
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。
RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2024-10-18T06:35:17Z) - Automated Genre-Aware Article Scoring and Feedback Using Large Language Models [8.10826723408637]
本稿では,高度知的物品スコアリングシステムの開発に焦点をあてる。
著作物の全体的な品質を評価し、様々なジャンルに合わせた詳細な特徴ベースのスコアを提供する。
論文 参考訳(メタデータ) (2024-10-18T04:13:51Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - An Interpretable Deep Learning System for Automatically Scoring Request
for Proposals [3.244940746423378]
本稿では,Bi-LSTMに基づく新しい回帰モデルを提案する。
また,人間の評価を用いた重要なフレーズの影響を質的に評価する。
最後に,NLPに基づく自動スコアリングシステムにおける技術状況を改善するために,新たな問題文を導入する。
論文 参考訳(メタデータ) (2020-08-05T20:21:35Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。