論文の概要: Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?
- arxiv url: http://arxiv.org/abs/2505.01035v1
- Date: Fri, 02 May 2025 06:17:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-05 17:21:19.930917
- Title: Do We Need a Detailed Rubric for Automated Essay Scoring using Large Language Models?
- Title(参考訳): 大規模言語モデルを用いた自動評価のための詳細なルーブリックは必要か?
- Authors: Lui Yoshida,
- Abstract要約: 大規模言語モデル(LLM)を用いた自動エッセイスコア(AES)における詳細なルーリックの必要性と影響について検討する。
4つのモデルのうち3つは、詳細なモデルと比較して、簡易なルーリックと類似したスコアの精度を維持した。
1つのモデル(Gemini 1.5 Flash)は、より詳細なルーリックでパフォーマンスが低下した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study investigates the necessity and impact of a detailed rubric in automated essay scoring (AES) using large language models (LLMs). While using rubrics are standard in LLM-based AES, creating detailed rubrics requires substantial ef-fort and increases token usage. We examined how different levels of rubric detail affect scoring accuracy across multiple LLMs using the TOEFL11 dataset. Our experiments compared three conditions: a full rubric, a simplified rubric, and no rubric, using four different LLMs (Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, and Llama 3 70B Instruct). Results showed that three out of four models maintained similar scoring accuracy with the simplified rubric compared to the detailed one, while significantly reducing token usage. However, one model (Gemini 1.5 Flash) showed decreased performance with more detailed rubrics. The findings suggest that simplified rubrics may be sufficient for most LLM-based AES applications, offering a more efficient alternative without compromis-ing scoring accuracy. However, model-specific evaluation remains crucial as per-formance patterns vary across different LLMs.
- Abstract(参考訳): 本研究では,大規模言語モデル(LLM)を用いた自動エッセイスコア(AES)における詳細なルーリックの必要性と影響について検討した。
LLMベースのAESでは、ルーブリックの使用が標準となっているが、詳細なルーブリックを作成するにはかなりの努力が必要であり、トークンの使用量が増加する。
本研究では,TOEFL11データセットを用いて,複数のLLMのスコアリング精度に異なるルーリックディテールがどう影響するかを検討した。
実験では,4種類のLCM (Claude 3.5 Haiku, Gemini 1.5 Flash, GPT-4o-mini, Llama 3 70B Instruct) を用いて, フルルーリック, 簡易ルーリック, 簡易ルーリックの3つの条件を比較した。
その結果, 4モデル中3モデルでは, トークン使用率を著しく低下させながら, 簡易ルーリックと類似した評価精度を維持した。
しかし、1つのモデル(Gemini 1.5 Flash)はより詳細なルーリックで性能が低下した。
以上の結果から,LLMをベースとしたAESアプリケーションでは,簡易な潤滑剤が十分である可能性が示唆された。
しかし, モデル固有の評価はLLMによって異なるため, モデル固有の評価は依然として重要である。
関連論文リスト
- GeoBenchX: Benchmarking LLMs for Multistep Geospatial Tasks [0.0]
Sonnet 3.5 と GPT-4o は最高性能を達成し、Claude モデルは解決可能なタスクに優れていた。
一般的な誤りには、幾何学的関係の誤解、時代遅れの知識への依存、非効率的なデータ操作などがある。
論文 参考訳(メタデータ) (2025-03-23T16:20:14Z) - Towards Automated Fact-Checking of Real-World Claims: Exploring Task Formulation and Assessment with LLMs [32.45604456988931]
本研究では,Large Language Models(LLMs)を用いたAFC(Automated Fact-Checking)のベースライン比較を確立する。
また,2007-2024年にPoitiFactから収集された17,856件のクレームに対して,制限されたWeb検索によって得られた証拠を用いてLlama-3モデルの評価を行った。
以上の結果から, LLMは微調整をせずに, 分類精度, 正当化品質において, より小型のLLMより一貫して優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-13T02:51:17Z) - SPaR: Self-Play with Tree-Search Refinement to Improve Instruction-Following in Large Language Models [88.29990536278167]
SPaRは、木探索の自己精製を統合して、有効かつ同等な選好ペアを得るセルフプレイフレームワークである。
実験により,SPaRで誘導された3回の反復で訓練されたLLaMA3-8Bモデルが,一般機能を失うことなくIFEvalベンチマークでGPT-4-Turboを上回った。
論文 参考訳(メタデータ) (2024-12-16T09:47:43Z) - LLM Distillation for Efficient Few-Shot Multiple Choice Question Answering [1.0874597293913013]
MCQA(Multiple Choice Question Answering)は、医学、法学、教育など、多くの現実世界の応用において重要な問題である。
本稿では,データ生成とスコアリングに大規模言語モデルを用いる,シンプルで効果的な手法を提案する。
提案手法では, 精度が28.9%から39.3%に向上し, 5ショットで直接微調整したベースラインに比べて10%以上向上した。
論文 参考訳(メタデータ) (2024-12-13T02:48:36Z) - 60 Data Points are Sufficient to Fine-Tune LLMs for Question-Answering [50.12622877002846]
大規模言語モデル(LLM)は、大量のデータセットの事前トレーニングを通じて、広範囲な世界の知識を符号化する。
我々は,事前学習したLLMが記憶する知識の量に基づいて,教師付き微調整(SFT)データを分類した。
実験の結果,SFTの段階では60個のデータポイントが事前学習中に符号化された知識を活性化することができ,LLMがQAタスクを実行できることがわかった。
論文 参考訳(メタデータ) (2024-09-24T07:38:38Z) - Ziya2: Data-centric Learning is All LLMs Need [41.44909548662012]
基礎モデルとしてLLaMA2を採用した13億のパラメータを持つモデルであるZiya2を提案する。
実験の結果、Ziya2は他のモデルを特にオープンソースと比較して有望な結果で、複数のベンチマークで大きく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-11-06T17:49:34Z) - ExtractGPT: Exploring the Potential of Large Language Models for Product Attribute Value Extraction [52.14681890859275]
電子商取引プラットフォームは、属性と値のペアという形で構造化された製品データを必要とする。
BERTベースの抽出法では,タスク固有の大量のトレーニングデータを必要とする。
本稿では,大規模言語モデル (LLM) を,より訓練的かつ堅牢な代替手段として活用することを検討する。
論文 参考訳(メタデータ) (2023-10-19T07:39:00Z) - Distilling Step-by-Step! Outperforming Larger Language Models with Less
Training Data and Smaller Model Sizes [91.58845026796149]
大規模言語モデルを上回る小さなモデルを訓練する新しいメカニズムであるDistilling Step-by-stepを導入する。
4つのNLPベンチマークで3つの結果を得た。
論文 参考訳(メタデータ) (2023-05-03T17:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。