論文の概要: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
- arxiv url: http://arxiv.org/abs/2510.09030v1
- Date: Fri, 10 Oct 2025 06:05:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:48.198189
- Title: Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise
- Title(参考訳): リフレクション・アンド・リビジョンによる言語モデルのためのエッセイ・スコーリング・ルーブリックの自動リファインメント
- Authors: Keno Harada, Lui Yoshida, Takeshi Kojima, Yusuke Iwasawa, Yutaka Matsuo,
- Abstract要約: 本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
- 参考スコア(独自算出の注目度): 41.16092952642748
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The performance of Large Language Models (LLMs) is highly sensitive to the prompts they are given. Drawing inspiration from the field of prompt optimization, this study investigates the potential for enhancing Automated Essay Scoring (AES) by refining the scoring rubrics used by LLMs. Specifically, our approach prompts models to iteratively refine rubrics by reflecting on models' own scoring rationales and observed discrepancies with human scores on sample essays. Experiments on the TOEFL11 and ASAP datasets using GPT-4.1, Gemini-2.5-Pro, and Qwen-3-Next-80B-A3B-Instruct show Quadratic Weighted Kappa (QWK) improvements of up to 0.19 and 0.47, respectively. Notably, even with a simple initial rubric, our approach achieves comparable or better QWK than using detailed human-authored rubrics. Our findings highlight the importance of iterative rubric refinement in LLM-based AES to enhance alignment with human evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)の性能は、与えられたプロンプトに非常に敏感である。
本研究は, 即時最適化の分野からインスピレーションを得て, LLMのスコアリング潤滑剤を精製することにより, AES(Automated Essay Scoring)の強化の可能性について検討する。
具体的には,モデル自体の採点的根拠を反映し,サンプルエッセイにおける人間のスコアとの相違を観察することにより,モデルに反復的に潤滑剤を精製させる手法を提案する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-InstructによるTOEFL11とASAPデータセットの実験では、それぞれ最大0.19と0.47の改善が得られた。
特に,簡単な初期ルーリックであっても,詳細な人為的なルーリックよりも,QWKに匹敵する,あるいは優れている。
本研究は,ALMをベースとしたAESにおいて,ヒト評価との整合性を高めるために,反復的ルーリック精製の重要性を浮き彫りにした。
関連論文リスト
- Aligning Large Language Models via Fully Self-Synthetic Data [20.05693955243206]
大規模な言語モデル(LLM)に対する人間からのフィードバック(RLHF)からの伝統的な強化学習は、高価な人間の注釈付きデータセットに依存している。
本研究では,LLMアライメントのための完全自己合成フレームワークであるSelf-Alignment Optimization (SAO)を紹介する。
実験によると、AlpacaEval2.0のような標準ベンチマークでは、SAOがモデルのチャット機能を効果的に強化している。
論文 参考訳(メタデータ) (2025-10-08T05:07:45Z) - SCAN: Structured Capability Assessment and Navigation for LLMs [54.54085382131134]
textbfSCAN (Structured Capability Assessment and Navigation) は、大規模言語モデルの詳細な特徴付けを可能にする実用的なフレームワークである。
SCANには4つの重要なコンポーネントが含まれている。
TaxBuilder – クエリから機能表示タグを抽出して階層的な分類構造を構築する。
RealMixは、各機能タグに対する十分な評価データを保証するクエリ合成とフィルタリングのメカニズムである。
PC$2$ベースのLCM-as-a-Judge法は従来のLCM-as-a-Judge法と比較して大幅に精度が向上する
論文 参考訳(メタデータ) (2025-05-10T16:52:40Z) - R-PRM: Reasoning-Driven Process Reward Modeling [53.06844294668382]
プロセス・リワード・モデル(Process Reward Models, PRM)は、各推論ステップを評価することによって、有望なソリューションとして登場した。
既存のPRMは評価スコアを直接出力し、学習効率と評価精度の両方を制限する。
推論駆動プロセスリワードモデリング(R-PRM)を提案する。
R-PRMは限られたアノテーションからシードデータを生成し、効果的にモデルの推論能力をブートストラップします。
論文 参考訳(メタデータ) (2025-03-27T09:23:08Z) - Language Models are Few-Shot Graders [0.12289361708127876]
我々は最先端のLCMを利用したASAGパイプラインを提案する。
GPT-4、GPT-4o、o1-previewの3つのOpenAIモデルのグレーディング性能を比較した。
以上の結果より,RAGによる選択はランダム選択よりも優れており,グレードドドサンプルを提供することでグレーディング精度が向上することが示唆された。
論文 参考訳(メタデータ) (2025-02-18T23:38:21Z) - SedarEval: Automated Evaluation using Self-Adaptive Rubrics [4.97150240417381]
本稿では,自己適応型ルーブリックに基づく新しい評価パラダイムを提案する。
SedarEvalは、細心の注意を払って1,000の質問から成り、それぞれが独自の自己適応型ルーリックを持っている。
我々は、人間の学級に取って代わるために、特殊評価器言語モデル(評価器LM)を訓練する。
論文 参考訳(メタデータ) (2025-01-26T16:45:09Z) - Self-Boosting Large Language Models with Synthetic Preference Data [97.94185115047999]
モデルアライメントのための合成選好データを活用する自己ブースティングパラダイムであるSynPOを紹介する。
4回のSynPOイテレーションの後、Llama3-8BとMistral-7Bは命令追従能力を大幅に強化した。
SynPO は様々なタスクにおける LLM の一般的な性能を改善し、よく認識された Open LLM のリーダーボード上で平均スコアが 3.2 から 5.0 に向上した。
論文 参考訳(メタデータ) (2024-10-09T14:57:31Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。