論文の概要: Towards Human-Like Grading: A Unified LLM-Enhanced Framework for Subjective Question Evaluation
- arxiv url: http://arxiv.org/abs/2510.07912v1
- Date: Thu, 09 Oct 2025 08:05:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:14.945985
- Title: Towards Human-Like Grading: A Unified LLM-Enhanced Framework for Subjective Question Evaluation
- Title(参考訳): ヒューマン・ライク・グラディングに向けて--主観的質問評価のための統一LLM強化フレームワーク
- Authors: Fanwei Zhua, Jiaxuan He, Xiaoxiao Chen, Zulong Chen, Quan Lu, Chenrui Mei,
- Abstract要約: 本稿では,全ての主観的質問に対して人間ライクな評価を提供する,LLM(Large Language Model)拡張自動階調フレームワークを提案する。
本フレームワークは,4つの相補的なモジュールを統合し,学生の回答を総合的に評価する。
- 参考スコア(独自算出の注目度): 11.709100855086291
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Automatic grading of subjective questions remains a significant challenge in examination assessment due to the diversity in question formats and the open-ended nature of student responses. Existing works primarily focus on a specific type of subjective question and lack the generality to support comprehensive exams that contain diverse question types. In this paper, we propose a unified Large Language Model (LLM)-enhanced auto-grading framework that provides human-like evaluation for all types of subjective questions across various domains. Our framework integrates four complementary modules to holistically evaluate student answers. In addition to a basic text matching module that provides a foundational assessment of content similarity, we leverage the powerful reasoning and generative capabilities of LLMs to: (1) compare key knowledge points extracted from both student and reference answers, (2) generate a pseudo-question from the student answer to assess its relevance to the original question, and (3) simulate human evaluation by identifying content-related and non-content strengths and weaknesses. Extensive experiments on both general-purpose and domain-specific datasets show that our framework consistently outperforms traditional and LLM-based baselines across multiple grading metrics. Moreover, the proposed system has been successfully deployed in real-world training and certification exams at a major e-commerce enterprise.
- Abstract(参考訳): 主観的質問の自動格付けは,質問形式の多様性と学生の反応のオープンな性質により,試験評価において重要な課題である。
既存の研究は主に特定の種類の主観的質問に焦点を当てており、多様な質問タイプを含む総合的な試験を支援する一般性に欠ける。
本稿では,多分野にわたる主観的質問に対する人間的な評価を提供する,LLM(Large Language Model)拡張自動階調フレームワークを提案する。
本フレームワークは,4つの相補的なモジュールを統合し,学生の回答を総合的に評価する。
コンテンツ類似性の基本的な評価を提供する基本テキストマッチングモジュールに加えて,(1)学生と基準回答の両方から抽出したキーナレッジポイントを比較し,(2)学生の回答から疑似質問を生成し,元の質問に対する関連性を評価するとともに,(3)コンテンツ関連および非コンテンツ長所と弱所を識別して人的評価をシミュレートする。
汎用データセットとドメイン固有データセットの両方に対する大規模な実験により、当社のフレームワークは、複数のグレードメトリクスで従来およびLLMベースのベースラインを一貫して上回ります。
さらに,本システムは,大手eコマース企業における実世界トレーニングおよび認定試験に成功している。
関連論文リスト
- Curse of Knowledge: When Complex Evaluation Context Benefits yet Biases LLM Judges [72.3356133063925]
審査員としての大規模言語モデル(LLM)のパラダイムはスケーラブルなソリューションとして登場したが、以前の作業は主に単純な設定に焦点を当てていた。
我々の詳細な分析は、評価信号の精度と妥当性を向上させるための重要な洞察を提供する。
論文 参考訳(メタデータ) (2025-09-03T15:48:33Z) - Expert Preference-based Evaluation of Automated Related Work Generation [54.29459509574242]
本稿では,従来の作業評価基準と専門家固有の嗜好を統合したマルチターン評価フレームワークGREPを提案する。
より優れたアクセシビリティを実現するため、我々はGREPの2つの変種を設計する: プロプライエタリなLLMを評価対象とするより正確な変種と、オープンウェイトなLLMをより安価な代替品である。
論文 参考訳(メタデータ) (2025-08-11T13:08:07Z) - Ratas framework: A comprehensive genai-based approach to rubric-based marking of real-world textual exams [3.4132239125074206]
RATAS(Rubric Automated Tree-based Answer Scoring)は、テキスト応答のルーリックベースのグレーディングに最先端の生成AIモデルを活用する新しいフレームワークである。
RATASは、幅広いグレーディングルーリックをサポートし、主観的評価を可能にし、割り当てられたスコアに対して構造化された説明可能な論理を生成するように設計されている。
論文 参考訳(メタデータ) (2025-05-27T22:17:27Z) - "There Is No Such Thing as a Dumb Question," But There Are Good Ones [4.962252439662465]
本研究は,優れた質問を定義し,体系的な評価枠組みを提案する。
本稿では,適切性(文脈における社会言語的能力)と有効性という2つの重要な評価次元を提案する。
動的文脈変数を組み込むことにより、評価フレームワークは半適応的基準によって構造と柔軟性を達成する。
論文 参考訳(メタデータ) (2025-05-15T03:12:28Z) - Evaluating LLM-based Agents for Multi-Turn Conversations: A Survey [64.08485471150486]
本研究では,大規模言語モデル(LLM)に基づくマルチターン対話環境におけるエージェントの評価手法について検討する。
我々は250近い学術資料を体系的にレビューし、様々な出版場所から芸術の状態を捉えた。
論文 参考訳(メタデータ) (2025-03-28T14:08:40Z) - HGOT: Hierarchical Graph of Thoughts for Retrieval-Augmented In-Context Learning in Factuality Evaluation [20.178644251662316]
本稿では,文脈内学習における関連する文節の検索を促進するために,階層的思考グラフ(HGOT)を導入する。
このフレームワークは、複雑なクエリを管理可能なサブクエリに分割する、分割/クエリ戦略を採用している。
それは、最近提案された引用リコールと精度の指標を取り入れた、回答の選択のための自己一貫性の過半数投票を洗練する。
論文 参考訳(メタデータ) (2024-02-14T18:41:19Z) - Benchmarking Foundation Models with Language-Model-as-an-Examiner [47.345760054595246]
本稿では,新しいベンチマークフレームワークLanguage-Model-as-an-Examinerを提案する。
LMは、その知識に基づいて質問を定式化し、基準のない方法で応答を評価する、知識に富んだ検査者として機能する。
論文 参考訳(メタデータ) (2023-06-07T06:29:58Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - What should I Ask: A Knowledge-driven Approach for Follow-up Questions
Generation in Conversational Surveys [63.51903260461746]
対話型調査における知識駆動型フォローアップ質問生成のための新しい課題を提案する。
そこで我々は,対話履歴とラベル付き知識を用いた人手によるフォローアップ質問の新しいデータセットを構築した。
次に,その課題に対する2段階の知識駆動モデルを提案する。
論文 参考訳(メタデータ) (2022-05-23T00:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。