論文の概要: Exploration of Summarization by Generative Language Models for Automated Scoring of Long Essays
- arxiv url: http://arxiv.org/abs/2510.22830v2
- Date: Tue, 28 Oct 2025 14:43:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 13:20:32.896726
- Title: Exploration of Summarization by Generative Language Models for Automated Scoring of Long Essays
- Title(参考訳): 長期評価の自動化のための生成言語モデルによる要約の探索
- Authors: Haowei Hua, Hong Jiao, Xinyi Wang,
- Abstract要約: 本研究では,要約とプロンプトによる長いエッセイの自動採点のための生成言語モデルについて検討する。
その結果,QWKによる評価精度は,学習機関自動評価2.0データセットでは0.822から0.8878に向上した。
- 参考スコア(独自算出の注目度): 4.22134596033385
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: BERT and its variants are extensively explored for automated scoring. However, a limit of 512 tokens for these encoder-based models showed the deficiency in automated scoring of long essays. Thus, this research explores generative language models for automated scoring of long essays via summarization and prompting. The results revealed great improvement of scoring accuracy with QWK increased from 0.822 to 0.8878 for the Learning Agency Lab Automated Essay Scoring 2.0 dataset.
- Abstract(参考訳): BERTとその変種は自動スコアリングのために広く研究されている。
しかし、これらのエンコーダモデルに対する512トークンの制限は、長いエッセイの自動スコアの欠如を示している。
そこで本研究では,要約とプロンプトによる長いエッセイの自動採点のための生成言語モデルについて検討する。
その結果,QWKによる評価精度は,学習機関自動評価2.0データセットでは0.822から0.8878に向上した。
関連論文リスト
- Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。
GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文 参考訳(メタデータ) (2025-10-10T06:05:38Z) - Applying Ensemble Methods to Model-Agnostic Machine-Generated Text Detection [0.0]
そこで本研究では,機械が生成したテキストを,そこから派生した大きな言語モデルが未知の場合に検出する問題について検討する。
生成型(またはベース)言語モデルと識別型(またはスコアリング型)言語モデルとが同一である場合に高い精度で、ゼロショットモデルを用いてテキスト検出を行う。
論文 参考訳(メタデータ) (2024-06-18T12:58:01Z) - Software Metadata Classification based on Generative Artificial
Intelligence [0.0]
本稿では、生成人工知能(AI)を用いたバイナリコードコメント品質分類モデルの性能向上のための新しいアプローチを提案する。
OpenAI APIを活用することで、新たに生成した1239のコード補完ペアからなるデータセットを、“Useful”あるいは“Not Useful”とラベル付けした。
その結果,ソフトウェア開発分野や品質保証分野の幅広い文脈における適用性を示すとともに,本手法の有効性を確認した。
論文 参考訳(メタデータ) (2023-10-14T07:38:16Z) - mFACE: Multilingual Summarization with Factual Consistency Evaluation [79.60172087719356]
抽象的な要約は、事前訓練された言語モデルと大規模データセットの可用性のおかげで、近年で新たな関心を集めている。
有望な結果にもかかわらず、現在のモデルはいまだに現実的に矛盾した要約を生み出すことに苦しむ。
事実整合性評価モデルを利用して、多言語要約を改善する。
論文 参考訳(メタデータ) (2022-12-20T19:52:41Z) - Discover, Explanation, Improvement: An Automatic Slice Detection
Framework for Natural Language Processing [72.14557106085284]
スライス検出モデル(SDM)は、データポイントの低パフォーマンスなグループを自動的に識別する。
本稿では,NLPタスクの分類のための "Discover, Explain, improve (DEIM)" というベンチマークを提案する。
評価の結果,Edisaは情報的セマンティックな特徴を持つ誤り発生データポイントを正確に選択できることがわかった。
論文 参考訳(メタデータ) (2022-11-08T19:00:00Z) - Improving Performance of Automated Essay Scoring by using
back-translation essays and adjusted scores [0.0]
バックトランスレーションとスコア調整を用いたエッセイスコアペア数を増やす手法を提案する。
先行作業から得られたモデルを用いて,拡張データの有効性を評価する。
モデルをトレーニングするために拡張データを使用することで、モデルの性能が向上した。
論文 参考訳(メタデータ) (2022-03-01T11:05:43Z) - Handwriting recognition and automatic scoring for descriptive answers in
Japanese language tests [7.489722641968594]
本報告では, 大学入試試験における手書き記述回答の自動評価実験について述べる。
すべての答えは人間の検査官によって採点されているが、手書き文字はラベル付けされていない。
我々は、ラベル付き手書きデータセットで訓練されたディープニューラルネットワークベースの手書き文字認識器を、このラベル付き回答セットに適応させようと試みる。
論文 参考訳(メタデータ) (2022-01-10T08:47:52Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。