論文の概要: FeedEval: Pedagogically Aligned Evaluation of LLM-Generated Essay Feedback
- arxiv url: http://arxiv.org/abs/2601.04574v1
- Date: Thu, 08 Jan 2026 04:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.030959
- Title: FeedEval: Pedagogically Aligned Evaluation of LLM-Generated Essay Feedback
- Title(参考訳): FeedEval: LLM生成エッセイフィードバックの教育学的評価
- Authors: Seongyeub Chu, Jongwoo Kim, Munyong Yi,
- Abstract要約: 本稿では,LLM生成エッセイフィードバックを評価するためのフレームワークFeedEvalを提案する。
ASAP++ベンチマークの実験では、FeedEvalは人間の専門家による判断と密接に一致しており、FeedEvalでフィルタされた高品質なフィードバックでトレーニングされたモデルを評価するエッセイは、優れたスコアリング性能を実現している。
- 参考スコア(独自算出の注目度): 6.88204255655161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Going beyond the prediction of numerical scores, recent research in automated essay scoring has increasingly emphasized the generation of high-quality feedback that provides justification and actionable guidance. To mitigate the high cost of expert annotation, prior work has commonly relied on LLM-generated feedback to train essay assessment models. However, such feedback is often incorporated without explicit quality validation, resulting in the propagation of noise in downstream applications. To address this limitation, we propose FeedEval, an LLM-based framework for evaluating LLM-generated essay feedback along three pedagogically grounded dimensions: specificity, helpfulness, and validity. FeedEval employs dimension-specialized LLM evaluators trained on datasets curated in this study to assess multiple feedback candidates and select high-quality feedback for downstream use. Experiments on the ASAP++ benchmark show that FeedEval closely aligns with human expert judgments and that essay scoring models trained with FeedEval-filtered high-quality feedback achieve superior scoring performance. Furthermore, revision experiments using small LLMs show that the high-quality feedback identified by FeedEval leads to more effective essay revisions. We will release our code and curated datasets upon accepted.
- Abstract(参考訳): 数値スコアの予測を超えて、最近の自動エッセイスコアの研究では、正当化と行動可能なガイダンスを提供する高品質なフィードバックの生成を強調している。
専門家アノテーションの高コスト化のために、従来の研究はエッセイアセスメントモデルの訓練にLLMによるフィードバックに依存してきた。
しかし、そのようなフィードバックは明示的な品質検証なしに組み込まれ、下流のアプリケーションではノイズが伝搬する。
この制限に対処するため,LLMを用いたエッセイフィードバック評価フレームワークFeedEvalを提案する。
FeedEvalは、複数のフィードバック候補を評価し、下流での使用のために高品質なフィードバックを選択するために、この研究でキュレートされたデータセットに基づいて訓練された次元特化LDM評価器を使用している。
ASAP++ベンチマークの実験では、FeedEvalは人間の専門家による判断と密接に一致しており、FeedEvalでフィルタされた高品質なフィードバックでトレーニングされたモデルを評価するエッセイは、優れたスコアリング性能を実現している。
さらに、小さなLLMを用いたリビジョン実験では、FeedEvalによって同定された高品質なフィードバックがより効果的なエッセイリビジョンをもたらすことが示されている。
承認されたコードとキュレートされたデータセットをリリースします。
関連論文リスト
- Dean of LLM Tutors: Exploring Comprehensive and Automated Evaluation of LLM-generated Educational Feedback via LLM Feedback Evaluators [5.838566576554449]
LLM フィードバック評価器を用いて,LLM チュータが生成したフィードバックを自動的に,包括的に評価する手法を提案する。
これにより、低品質なフィードバックを拒否することができ、LLMチューターが評価結果に基づいて生成されたフィードバックを改善することができる。
その結果,o3-proはフィードバックのゼロショットラベリングにおいて最高の性能を示し,o4-miniは数ショットラベリングにおいて最高の性能を示した。
論文 参考訳(メタデータ) (2025-08-08T02:36:23Z) - Towards Understanding the Robustness of LLM-based Evaluations under Perturbations [9.944512689015998]
大言語モデル(LLM)は、要約やダイアログベースのタスクにおいて、非標準化メトリクスの自動評価器として機能する。
人間の判断に比較して,LLMが品質評価指標としていかに優れているかを検討するために,複数のプロンプト戦略にまたがる実験を行った。
論文 参考訳(メタデータ) (2024-12-12T13:31:58Z) - RevisEval: Improving LLM-as-a-Judge via Response-Adapted References [95.29800580588592]
RevisEvalは、応答適応参照による新しいテキスト生成評価パラダイムである。
RevisEvalは、理想的な参照が評価される応答に対する必要な関連性を維持するべきであるというキーオブザーバーによって駆動される。
論文 参考訳(メタデータ) (2024-10-07T16:50:47Z) - AI-Driven Review Systems: Evaluating LLMs in Scalable and Bias-Aware Academic Reviews [18.50142644126276]
我々は,人選好のアリーナを用いて,人選好と自動レビューのアライメントを評価する。
我々は、LLMを微調整して人間の好みを予測し、LLM同士の真っ向からの戦いにおいて、どのレビューが好まれるかを予測する。
我々は、公開可能なarXivおよびオープンアクセスのNatureジャーナルのレビューをオンラインで公開し、著者が研究論文をレビューし、改訂し、品質を改善するのに役立つ無料サービスを提供しています。
論文 参考訳(メタデータ) (2024-08-19T19:10:38Z) - DnA-Eval: Enhancing Large Language Model Evaluation through Decomposition and Aggregation [75.81096662788254]
大規模言語モデル(LLM)はスケーラブルで経済的な評価指標である。
これらの評価者がどの程度信頼できるかという問題は、重要な研究課題として浮上している。
本稿では,デコンプリートとアグリゲートを提案し,その評価プロセスを教育実践に基づいて異なる段階に分解する。
論文 参考訳(メタデータ) (2024-05-24T08:12:30Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Aligning with Human Judgement: The Role of Pairwise Preference in Large Language Model Evaluators [48.54465599914978]
大規模言語モデル(LLM)は、生成された自然言語の品質を評価するための自動評価器として有望な能力を示した。
LLMは依然として評価のバイアスを示しており、人間の評価と整合したコヒーレントな評価を生成するのに苦労することが多い。
Pairwise-preference Search (PAIRS) は、LLMを用いた不確実性誘導検索に基づくランクアグリゲーション手法で、局所的にペアワイズ比較を行い、グローバルに候補テキストを効率よくランク付けする。
論文 参考訳(メタデータ) (2024-03-25T17:11:28Z) - PRE: A Peer Review Based Large Language Model Evaluator [14.585292530642603]
既存のパラダイムは、LLMの性能を評価するために、人間アノテーションまたはモデルベースの評価器のいずれかに依存している。
ピアレビュープロセスを通じてLLMを自動的に評価できる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-28T12:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。