論文の概要: LLM Agents at the Roundtable: A Multi-Perspective and Dialectical Reasoning Framework for Essay Scoring
- arxiv url: http://arxiv.org/abs/2509.14834v1
- Date: Thu, 18 Sep 2025 10:55:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.172519
- Title: LLM Agents at the Roundtable: A Multi-Perspective and Dialectical Reasoning Framework for Essay Scoring
- Title(参考訳): ラウンドテーブルにおけるLLMエージェント:エッセイ・スコーリングのための多目的・対話型推論フレームワーク
- Authors: Jinhee Jang, Ayoung Moon, Minkyoung Jung, YoungBin Kim. Seung Jin Lee,
- Abstract要約: Roundtable Essay Scoring (RES) は、ゼロショット設定で正確でヒューマンアライメントのスコアリングを行うために設計されたマルチエージェント評価フレームワークである。
RESは弁証的推論プロセスを通じて個々の評価を集約し、最終的な総合的なスコアを生成する。
ChatGPTとClaudeを用いたASAPデータセットの実験では、RESは素早いプロンプトよりも平均QWKを34.86%改善した。
- 参考スコア(独自算出の注目度): 1.318284514863631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The emergence of large language models (LLMs) has brought a new paradigm to automated essay scoring (AES), a long-standing and practical application of natural language processing in education. However, achieving human-level multi-perspective understanding and judgment remains a challenge. In this work, we propose Roundtable Essay Scoring (RES), a multi-agent evaluation framework designed to perform precise and human-aligned scoring under a zero-shot setting. RES constructs evaluator agents based on LLMs, each tailored to a specific prompt and topic context. Each agent independently generates a trait-based rubric and conducts a multi-perspective evaluation. Then, by simulating a roundtable-style discussion, RES consolidates individual evaluations through a dialectical reasoning process to produce a final holistic score that more closely aligns with human evaluation. By enabling collaboration and consensus among agents with diverse evaluation perspectives, RES outperforms prior zero-shot AES approaches. Experiments on the ASAP dataset using ChatGPT and Claude show that RES achieves up to a 34.86% improvement in average QWK over straightforward prompting (Vanilla) methods.
- Abstract(参考訳): 大規模言語モデル(LLM)の出現は、教育における自然言語処理の長年の実践的応用である自動エッセイスコア(AES)に新しいパラダイムをもたらした。
しかし、人間レベルの多面的理解と判断を達成することは依然として課題である。
本研究では,ゼロショット設定下での精度と人力協調スコアリングを実現するためのマルチエージェント評価フレームワークであるRoundtable Essay Scoring (RES)を提案する。
RES は LLM に基づいた評価エージェントを構築し、それぞれが特定のプロンプトとトピックコンテキストに合わせて調整される。
各エージェントは独立して特性ベースルーブリックを生成し、マルチパースペクティブ評価を行う。
そして、ラウンドテーブル形式の議論をシミュレートすることで、RESは弁証的推論プロセスを通じて個々の評価を集約し、人間の評価とより密に一致した最終的な総合的なスコアを生成する。
多様な評価視点を持つエージェント間のコラボレーションとコンセンサスを可能にすることで、RESは以前のゼロショットAESアプローチより優れている。
ChatGPTとClaudeを用いたASAPデータセットの実験では、RESは素早いプロンプト(Vanilla)メソッドよりも平均QWKを34.86%改善した。
関連論文リスト
- Eye of Judgement: Dissecting the Evaluation of Russian-speaking LLMs with POLLUX [1.3269144777389015]
POLLUXは、ロシア語で大規模言語モデル(LLM)の生成能力を評価するために設計されたベンチマークである。
各タスクタイプについて、一連の詳細な基準を定義し、スコアリングプロトコルを開発する。
これにより、従来のリソース消費による人的比較を超えて、透過的で基準駆動的な評価が可能になる。
論文 参考訳(メタデータ) (2025-05-30T14:08:17Z) - IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。
エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。
最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文 参考訳(メタデータ) (2025-05-23T09:37:52Z) - HREF: Human Response-Guided Evaluation of Instruction Following in Language Models [61.273153125847166]
我々は新しい評価ベンチマークHREF(Human Response-Guided Evaluation of Instruction following)を開発した。
HREFは信頼性の高い評価を提供するだけでなく、個々のタスクのパフォーマンスを強調し、汚染を受けない。
本稿では,評価セットのサイズ,判断モデル,ベースラインモデル,プロンプトテンプレートなど,HREFにおける鍵設計選択の影響について検討する。
論文 参考訳(メタデータ) (2024-12-20T03:26:47Z) - Generative Judge for Evaluating Alignment [84.09815387884753]
本稿では,これらの課題に対処するために,13Bパラメータを持つ生成判断器Auto-Jを提案する。
我々のモデルは,大規模な実環境シナリオ下でのユーザクエリとLLM生成応答に基づいて訓練されている。
実験的に、Auto-Jはオープンソースモデルとクローズドソースモデルの両方を含む、強力なライバルのシリーズを上回っている。
論文 参考訳(メタデータ) (2023-10-09T07:27:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。