論文の概要: MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer
- arxiv url: http://arxiv.org/abs/2506.13037v1
- Date: Mon, 16 Jun 2025 02:02:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.311055
- Title: MAGIC: Multi-Agent Argumentation and Grammar Integrated Critiquer
- Title(参考訳): MAGIC:マルチエージェント論と文法統合批評
- Authors: Joaquin Jordan, Xavier Yin, Melissa Fabros, Gireeja Ranade, Narges Norouzi,
- Abstract要約: マルチエージェント論と文法統合批評(MAGIC)
フレームワークは、複数の特殊エージェントを使用して、異なる書き込みの側面を評価し、総合的なスコアを予測し、詳細でルーリックなフィードバックを生成する。
- 参考スコア(独自算出の注目度): 4.262223700066747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Essay Scoring (AES) and Automatic Essay Feedback (AEF) systems aim to reduce the workload of human raters in educational assessment. However, most existing systems prioritize numeric scoring accuracy over the quality of feedback. This paper presents Multi-Agent Argumentation and Grammar Integrated Critiquer (MAGIC), a framework that uses multiple specialized agents to evaluate distinct writing aspects to both predict holistic scores and produce detailed, rubric-aligned feedback. To support evaluation, we curated a novel dataset of past GRE practice test essays with expert-evaluated scores and feedback. MAGIC outperforms baseline models in both essay scoring , as measured by Quadratic Weighted Kappa (QWK). We find that despite the improvement in QWK, there are opportunities for future work in aligning LLM-generated feedback to human preferences.
- Abstract(参考訳): AES(Automated Essay Scoring)とAEF(Automatic Essay Feedback)システムは、教育評価における人間のラッカーの負担軽減を目的としている。
しかし、既存のシステムの多くは、フィードバックの品質よりも数値スコアリングの精度を優先している。
本稿では,複数の専門エージェントを用いて,総合的なスコアを予測し,詳細かつルーリックなフィードバックを生成するために,異なる記述側面を評価するためのフレームワークであるMulti-Agent Argumentation and Grammar Integrated Critiquer(MAGIC)を提案する。
評価を支援するため,専門家評価スコアとフィードバックを用いた過去のGRE実践テストエッセイの新しいデータセットをキュレートした。
MAGICは、Quadratic Weighted Kappa (QWK)によって測定されるように、両エッセイ評価においてベースラインモデルより優れている。
我々はQWKの改善にもかかわらず、LLM生成したフィードバックを人間の嗜好に合わせるための今後の取り組みの機会があることを見出した。
関連論文リスト
- Evaluating AI Grading on Real-World Handwritten College Mathematics: A Large-Scale Study Toward a Benchmark [9.922581736690159]
カリフォルニア大学アーバイン校(UC Irvine)の実際の手書き電卓におけるAIのグルーピングに関する大規模な実証的研究について述べる。
OCR条件付き大規模言語モデルを用いて, 何千もの応答型クイズ入力に対して, スコアと形式的フィードバックを生成する。
本研究は,1つの基礎的ラベルを持たない環境下で,公的な指導助成学級,学生調査,独立人レビューに対する評価を行った。
論文 参考訳(メタデータ) (2026-03-01T03:32:51Z) - Author-in-the-Loop Response Generation and Evaluation: Integrating Author Expertise and Intent in Responses to Peer Review [53.99984738447279]
最近の作業は、このタスクを著者の専門知識と意図を活かした自動テキスト生成として捉えている。
本稿では,著者の明示的な入力,多属性制御,評価誘導による改良を統合したREspGenについて紹介する。
この定式化をサポートするために、アライメントされたレビュー-レスポンス-リビジョン三つ子の最初の大規模データセットであるRe$3$Alignを構築した。
論文 参考訳(メタデータ) (2026-01-19T14:07:10Z) - Exposía: Academic Writing Assessment of Exposés and Peer Feedback [56.428320613219306]
高等教育における文章とフィードバックアセスメントを結びつける最初の公開データセットであるExposaを提示する。
我々はExposaを使って,(1)提案の自動スコアリング,(2)学生レビューの2つのタスクに対して,最先端のオープンソース大言語モデル(LLM)をベンチマークする。
論文 参考訳(メタデータ) (2026-01-10T11:33:26Z) - FeedEval: Pedagogically Aligned Evaluation of LLM-Generated Essay Feedback [6.88204255655161]
本稿では,LLM生成エッセイフィードバックを評価するためのフレームワークFeedEvalを提案する。
ASAP++ベンチマークの実験では、FeedEvalは人間の専門家による判断と密接に一致しており、FeedEvalでフィルタされた高品質なフィードバックでトレーニングされたモデルを評価するエッセイは、優れたスコアリング性能を実現している。
論文 参考訳(メタデータ) (2026-01-08T04:04:29Z) - ARISE: Agentic Rubric-Guided Iterative Survey Engine for Automated Scholarly Paper Generation [7.437989615069771]
ARISEは、学術調査論文の自動生成と継続的改善のためのエージェント誘導反復調査エンジンである。
ARISEは、特定の大規模言語モデルエージェントで構成されたモジュラーアーキテクチャを採用し、それぞれがトピック拡張、引用キュレーション、文学要約、原稿の草稿作成、ピアレビューに基づく評価などの学術的な役割を反映している。
ARISEは、包括性、正確性、フォーマッティング、総合的な学術的厳密さの指標にまたがる基準的手法を一貫して超越している。
論文 参考訳(メタデータ) (2025-11-21T14:14:35Z) - Can Agents Judge Systematic Reviews Like Humans? Evaluating SLRs with LLM-based Multi-Agent System [1.3052252174353483]
体系的文学レビュー(SLR)は証拠に基づく研究の基礎であるが、労働集約的であり、規律全体にわたって矛盾する傾向にある。
本稿では,マルチエージェントシステム(MAS)アーキテクチャ上に構築されたLLMに基づくSLR評価コラボロトについて,システム文献レビューの全体的な品質評価を支援する。
従来の単エージェント手法とは異なり、PRISMAガイドラインに適合する特殊なエージェントアプローチを統合し、より構造化され、解釈可能な評価を支援する。
論文 参考訳(メタデータ) (2025-09-21T21:17:23Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - RAG-Zeval: Towards Robust and Interpretable Evaluation on RAG Responses through End-to-End Rule-Guided Reasoning [64.46921169261852]
RAG-Zevalは、ルール誘導推論タスクとして忠実さと正しさの評価を定式化する、新しいエンドツーエンドフレームワークである。
提案手法は、強化学習による評価者を訓練し、コンパクトなモデルにより包括的および音質評価を生成する。
実験では、RAG-Zevalの優れた性能を示し、人間の判断と最も強い相関性を達成した。
論文 参考訳(メタデータ) (2025-05-28T14:55:33Z) - On the Role of Feedback in Test-Time Scaling of Agentic AI Workflows [71.92083784393418]
エージェントAI(自律的な計画と行動を行うシステム)は広く普及しているが、複雑なタスクにおけるタスクの成功率は低いままである。
推論時のアライメントは、サンプリング、評価、フィードバックの3つのコンポーネントに依存します。
本稿では,様々な形態の批判から抽出されたフィードバックを繰り返し挿入するIterative Agent Decoding(IAD)を紹介する。
論文 参考訳(メタデータ) (2025-04-02T17:40:47Z) - Evaluating AI-Generated Essays with GRE Analytical Writing Assessment [15.993966092824335]
本研究は,10個のLLMが生成したエッセイを用いて,研究記録エグゼクティブ(GRE)の分析書面アセスメントについて検討する。
我々はこれらのエッセイを、GREスコアリングパイプラインで用いられるように、人間のレーダとe-rater自動スコアリングエンジンの両方を用いて評価した。
GPT-4oは平均4.78点、GPT-4oは4.67点だった。
論文 参考訳(メタデータ) (2024-10-22T21:30:58Z) - Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs [2.324913904215885]
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。
RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2024-10-18T06:35:17Z) - Automated Genre-Aware Article Scoring and Feedback Using Large Language Models [8.10826723408637]
本稿では,高度知的物品スコアリングシステムの開発に焦点をあてる。
著作物の全体的な品質を評価し、様々なジャンルに合わせた詳細な特徴ベースのスコアを提供する。
論文 参考訳(メタデータ) (2024-10-18T04:13:51Z) - PROXYQA: An Alternative Framework for Evaluating Long-Form Text Generation with Large Language Models [72.57329554067195]
ProxyQAは、長文生成を評価するための革新的なフレームワークである。
さまざまなドメインにまたがる詳細なヒューマンキュレートされたメタクエストで構成されており、それぞれに事前にアノテートされた回答を持つ特定のプロキシクエストが伴っている。
プロキシクエリに対処する際の評価器の精度を通じて、生成されたコンテンツの品質を評価する。
論文 参考訳(メタデータ) (2024-01-26T18:12:25Z) - Improving Machine Translation with Human Feedback: An Exploration of Quality Estimation as a Reward Model [75.66013048128302]
本研究では,QEモデルを報酬モデルとして活用し,フィードバックトレーニングにおける人間の嗜好を予測する可能性について検討する。
まず,QEに基づくフィードバックトレーニングにおいて,翻訳品質が低下する中で,報酬の増大として現れる過度な最適化問題を同定した。
問題に対処するために,ルールを用いて誤った翻訳を検知し,報酬のスコアにペナルティ項を割り当てる,シンプルで効果的な手法を採用する。
論文 参考訳(メタデータ) (2024-01-23T16:07:43Z) - SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - Towards a Unified Multi-Dimensional Evaluator for Text Generation [101.47008809623202]
自然言語生成のための統一多次元評価器UniEvalを提案する。
我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。
3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。
論文 参考訳(メタデータ) (2022-10-13T17:17:03Z) - An Interpretable Deep Learning System for Automatically Scoring Request
for Proposals [3.244940746423378]
本稿では,Bi-LSTMに基づく新しい回帰モデルを提案する。
また,人間の評価を用いた重要なフレーズの影響を質的に評価する。
最後に,NLPに基づく自動スコアリングシステムにおける技術状況を改善するために,新たな問題文を導入する。
論文 参考訳(メタデータ) (2020-08-05T20:21:35Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。