論文の概要: Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring
- arxiv url: http://arxiv.org/abs/2502.20748v1
- Date: Fri, 28 Feb 2025 05:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:43:57.081115
- Title: Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring
- Title(参考訳): Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring
- Authors: Heejin Do, Sangwon Ryu, Gary Geunbae Lee,
- Abstract要約: マルチトレイ自動化エッセイスコアシステム(AES)は、エッセイの多様な側面のきめ細かい評価を提供する。
以前のシステムは、なぜ特定の特性スコアが割り当てられたのかを説明できない。
本稿では,自己説明可能なRationale-Driven Multi-Trit自動評価フレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.632624116225276
- License:
- Abstract: Multi-trait automated essay scoring (AES) systems provide a fine-grained evaluation of an essay's diverse aspects. While they excel in scoring, prior systems fail to explain why specific trait scores are assigned. This lack of transparency leaves instructors and learners unconvinced of the AES outputs, hindering their practical use. To address this, we propose a self-explainable Rationale-Driven Multi-trait automated Essay scoring (RaDME) framework. RaDME leverages the reasoning capabilities of large language models (LLMs) by distilling them into a smaller yet effective scorer. This more manageable student model is optimized to sequentially generate a trait score followed by the corresponding rationale, thereby inherently learning to select a more justifiable score by considering the subsequent rationale during training. Our findings indicate that while LLMs underperform in direct AES tasks, they excel in rationale generation when provided with precise numerical scores. Thus, RaDME integrates the superior reasoning capacities of LLMs into the robust scoring accuracy of an optimized smaller model. Extensive experiments demonstrate that RaDME achieves both accurate and adequate reasoning while supporting high-quality multi-trait scoring, significantly enhancing the transparency of AES.
- Abstract(参考訳): マルチトレイ自動化エッセイスコアシステム(AES)は、エッセイの多様な側面のきめ細かい評価を提供する。
スコアは優れていますが、以前のシステムでは、特定の特性スコアが割り当てられた理由を説明できません。
この透明性の欠如は、インストラクターや学習者がAES出力を信じないままにし、実践的な使用を妨げている。
そこで我々は,自己説明可能なRationale-Driven Multi-Trait Automatic Essay score (RaDME) フレームワークを提案する。
RaDMEは、大きな言語モデル(LLM)の推論能力を利用して、より小さいが効果的なスコアラーに蒸留する。
このより管理しやすい学生モデルは、特性スコアを逐次生成し、それに対応する理論的根拠を付与するように最適化され、これにより、訓練中のその後の理論的根拠を考慮して、より正当化可能なスコアを選択することを本質的に学習する。
以上の結果から,LSMは直接AESタスクでは性能が劣るが,正確な数値スコアが得られた場合には合理的な生成が優れていることが示唆された。
したがって、RaDMEはLLMの優れた推論能力と、最適化されたより小さなモデルのロバストなスコアリング精度を統合する。
大規模な実験により,RaDMEは高品質なマルチトレーディングスコアをサポートしながら正確かつ適切な推論を実現し,AESの透明性を著しく向上することが示された。
関連論文リスト
- Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs [2.324913904215885]
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。
RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。
ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
論文 参考訳(メタデータ) (2024-10-18T06:35:17Z) - Reasoning Aware Self-Consistency: Leveraging Reasoning Paths for Efficient LLM Sampling [9.44858963874474]
自己整合性は、複数の推論経路をサンプリングすることによって、大規模言語モデル(LLM)における幻覚を緩和する。
本稿では、サンプリング効率を高め、忠実性を推論する新しいフレームワークであるReasoning-Aware Self-Consistency (RASC)を紹介する。
論文 参考訳(メタデータ) (2024-08-30T05:14:59Z) - RDBE: Reasoning Distillation-Based Evaluation Enhances Automatic Essay Scoring [0.0]
Reasoning Distillation-Based Evaluation (RDBE) は、解釈可能性を統合し、モデルスコアの背景にある理論的根拠を解明する。
実験により, データセットに考慮したすべてのスコアリングルーリックに対してRDBEの有効性が示された。
論文 参考訳(メタデータ) (2024-07-03T05:49:01Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Unleashing Large Language Models' Proficiency in Zero-shot Essay Scoring [12.66710643199155]
Multi Traitsのフレームワークは、大きな言語モデルに十分な可能性を秘めている。
特徴平均化と min-max スケーリングによる総合スコアを導出する。
MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回る。
論文 参考訳(メタデータ) (2024-04-07T12:25:35Z) - Tailoring Self-Rationalizers with Multi-Reward Distillation [88.95781098418993]
大規模言語モデル(LM)は、質問応答を支援する自由テキスト論理を生成することができる。
そこで本研究では,下流タスク性能を改善するための理性理論を,小規模のLMで生成する。
提案手法であるMaRioは,マルチリワード条件付き自己有理化アルゴリズムである。
論文 参考訳(メタデータ) (2023-11-06T00:20:11Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Self-training with Few-shot Rationalization: Teacher Explanations Aid
Student in Few-shot NLU [88.8401599172922]
タスク固有のラベルと合理的性に制限された自己学習言語モデルに基づくフレームワークを開発する。
ニューラルネットワークの性能は,その合理的な予測を意識することで,大幅に向上できることを示す。
論文 参考訳(メタデータ) (2021-09-17T00:36:46Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。