論文の概要: LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.08498v1
- Date: Tue, 13 May 2025 12:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-14 20:57:54.552009
- Title: LCES: Zero-shot Automated Essay Scoring via Pairwise Comparisons Using Large Language Models
- Title(参考訳): LCES: 大規模言語モデルを用いたペアワイズ比較によるゼロショット自動評価
- Authors: Takumi Shibata, Yuichi Miyamura,
- Abstract要約: 本稿では,AESをペア比較タスクとして定式化する方法であるLCES(Comparent Essay Scoring)を提案する。
具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。
AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) have enabled zero-shot automated essay scoring (AES), providing a promising way to reduce the cost and effort of essay scoring in comparison with manual grading. However, most existing zero-shot approaches rely on LLMs to directly generate absolute scores, which often diverge from human evaluations owing to model biases and inconsistent scoring. To address these limitations, we propose LLM-based Comparative Essay Scoring (LCES), a method that formulates AES as a pairwise comparison task. Specifically, we instruct LLMs to judge which of two essays is better, collect many such comparisons, and convert them into continuous scores. Considering that the number of possible comparisons grows quadratically with the number of essays, we improve scalability by employing RankNet to efficiently transform LLM preferences into scalar scores. Experiments using AES benchmark datasets show that LCES outperforms conventional zero-shot methods in accuracy while maintaining computational efficiency. Moreover, LCES is robust across different LLM backbones, highlighting its applicability to real-world zero-shot AES.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩により、ゼロショット自動エッセイスコア(AES)が実現され、手動グレーディングと比較してエッセイスコアのコストと労力を削減できる有望な方法となった。
しかしながら、既存のゼロショットアプローチのほとんどは、絶対スコアを直接生成するためにLCMに依存しており、モデルバイアスや一貫性のないスコアのため、しばしば人間の評価から逸脱する。
これらの制約に対処するために,AESをペア比較タスクとして定式化するLLMベースの比較エッセイ・スコアリング(LCES)を提案する。
具体的には、2つのエッセイのどちらが優れているかを判断し、そのような比較を多く集め、それらを連続的なスコアに変換するようにLCMに指示する。
比較可能な数とエッセイの数とが2次的に増加することを考えると,LangeNetを用いてLLMの選好をスカラースコアに効率よく変換することでスケーラビリティを向上させる。
AESベンチマークデータセットを用いた実験により、LCESは計算効率を保ちながら従来のゼロショット法よりも精度が高いことが示された。
さらに、LCESは異なるLLMバックボーンに対して堅牢であり、現実世界のゼロショットAESへの適用性を強調している。
関連論文リスト
- Self-Calibrated Listwise Reranking with Large Language Models [137.6557607279876]
大規模言語モデル (LLM) はシーケンシャル・ツー・シーケンス・アプローチによってタスクのランク付けに使用されている。
この階調のパラダイムは、より大きな候補集合を反復的に扱うためにスライディングウインドウ戦略を必要とする。
そこで本稿では,LLMを用いた自己校正リストのランク付け手法を提案する。
論文 参考訳(メタデータ) (2024-11-07T10:31:31Z) - Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。
VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition [0.09208007322096534]
大規模言語モデル (LLM) は自動エッセイスコーリング (AES) において有望であることを示す。
LLMはAESで有望だが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダに比べて低い。
本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-07-08T08:37:00Z) - Aligning Language Models with Demonstrated Feedback [58.834937450242975]
Demonstration ITerated Task Optimization (DITTO)は、言語モデルの出力とユーザの実証された振る舞いを直接調整する。
我々は,DITTOがニュース記事やメール,ブログ記事などのドメイン間できめ細かいスタイルやタスクアライメントを学習する能力を評価する。
論文 参考訳(メタデータ) (2024-06-02T23:13:56Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - LLM Comparative Assessment: Zero-shot NLG Evaluation through Pairwise
Comparisons using Large Language Models [55.60306377044225]
大規模言語モデル(LLM)は、様々な自然言語タスクで印象的なゼロショット機能を実現している。
本稿では,ゼロショットNLG評価におけるLCMの創発的能力を活用するための2つの選択肢について検討する。
FlanT5 や Llama2-chat のような中規模のオープンソース LLM では、スコアリングよりも比較評価が優れている。
論文 参考訳(メタデータ) (2023-07-15T22:02:12Z) - On Learning to Summarize with Large Language Models as References [101.79795027550959]
大型言語モデル (LLM) は、一般的な要約データセットにおける元の参照要約よりも人間のアノテーションに好まれる。
より小さなテキスト要約モデルに対するLLM-as-reference学習設定について検討し,その性能が大幅に向上するかどうかを検討する。
論文 参考訳(メタデータ) (2023-05-23T16:56:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。