論文の概要: Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs
- arxiv url: http://arxiv.org/abs/2410.14202v1
- Date: Fri, 18 Oct 2024 06:35:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:27:05.594000
- Title: Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs
- Title(参考訳): Rationale Be behindd Essay S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs
- Authors: SeongYeub Chu, JongWoo Kim, Bryan Wong, MunYong Yi,
- Abstract要約: 本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。
RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
- 参考スコア(独自算出の注目度): 2.324913904215885
- License:
- Abstract: Existing automated essay scoring (AES) has solely relied on essay text without using explanatory rationales for the scores, thereby forgoing an opportunity to capture the specific aspects evaluated by rubric indicators in a fine-grained manner. This paper introduces Rationale-based Multiple Trait Scoring (RMTS), a novel approach for multi-trait essay scoring that integrates prompt-engineering-based large language models (LLMs) with a fine-tuning-based essay scoring model using a smaller large language model (S-LLM). RMTS uses an LLM-based trait-wise rationale generation system where a separate LLM agent generates trait-specific rationales based on rubric guidelines, which the scoring model uses to accurately predict multi-trait scores. Extensive experiments on benchmark datasets, including ASAP, ASAP++, and Feedback Prize, show that RMTS significantly outperforms state-of-the-art models and vanilla S-LLMs in trait-specific scoring. By assisting quantitative assessment with fine-grained qualitative rationales, RMTS enhances the trait-wise reliability, providing partial explanations about essays.
- Abstract(参考訳): 既存の自動エッセイスコア(AES)は、スコアの説明的根拠を使わずにエッセイテキストにのみ依存しているため、ルーリック指標によって評価された特定の側面をきめ細かな方法で捉える機会が与えられる。
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。これは,プロンプトエンジニアリングに基づく大規模言語モデル (LLM) と,より小さな大規模言語モデル (S-LLM) を用いた微調整によるエッセイ評価モデルを統合する,マルチトレーディングのための新しいアプローチである。
RMTS は LLM をベースとした特徴量有理数生成システムを用いて,個別の LLM エージェントがルーブリックガイドラインに基づいて特徴量固有の有理数を生成する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットに関する大規模な実験は、RMTSが特性特異的スコアリングにおいて最先端モデルとバニラS-LLMを著しく上回っていることを示している。
RMTSは、きめ細かい質的合理性による定量的評価の支援により、特性的な信頼性を高め、エッセイに関する部分的な説明を提供する。
関連論文リスト
- LLaVA-Critic: Learning to Evaluate Multimodal Models [110.06665155812162]
本稿では,LLaVA-Criticについて紹介する。LLaVA-Criticは,汎用評価器として設計された,最初のオープンソースの大規模マルチモーダルモデル(LMM)である。
LLaVA-Criticは、さまざまな評価基準とシナリオを組み込んだ高品質な批判的インストラクションフォローデータセットを使用してトレーニングされている。
論文 参考訳(メタデータ) (2024-10-03T17:36:33Z) - Unleashing the Power of Large Language Models in Zero-shot Relation Extraction via Self-Prompting [21.04933334040135]
本稿では,大規模言語モデルに組み込まれたRE知識を十分に活用する新しい手法であるSelf-Promptingフレームワークを紹介する。
我々のフレームワークは3段階の多様性アプローチを用いてLSMを誘導し、スクラッチから特定の関係をカプセル化する複数の合成サンプルを生成する。
ベンチマークデータセットを用いた実験により,既存のLCMベースのゼロショットRE法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-10-02T01:12:54Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。
以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文 参考訳(メタデータ) (2024-06-30T16:12:37Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring [12.66710643199155]
Multi Traitsのフレームワークは、大きな言語モデルに十分な可能性を秘めている。
特徴平均化と min-max スケーリングによる総合スコアを導出する。
MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回る。
論文 参考訳(メタデータ) (2024-04-07T12:25:35Z) - Information-Theoretic Distillation for Reference-less Summarization [67.51150817011617]
本稿では,要約のための情報理論的目的に基づいて,強力な要約器を蒸留する新しい枠組みを提案する。
我々は,教師モデルとしてPythia-2.8Bから出発する。
我々は,ChatGPTと競合する5億8800万のパラメータしか持たないコンパクトだが強力な要約器に到達した。
論文 参考訳(メタデータ) (2024-03-20T17:42:08Z) - BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。
異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。
評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文 参考訳(メタデータ) (2023-10-24T12:18:17Z) - Summarization is (Almost) Dead [49.360752383801305]
我々は,大規模言語モデル(LLM)のゼロショット生成能力を評価するため,新しいデータセットを開発し,人間による評価実験を行う。
本研究は, 微調整モデルにより生成した要約や要約よりも, LLM生成要約に対する人間の評価において, 明らかな優位性を示した。
論文 参考訳(メタデータ) (2023-09-18T08:13:01Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。