Fugu-MT 論文翻訳(概要): Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization

論文の概要: Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization

arxiv url: http://arxiv.org/abs/2404.04941v1
Date: Sun, 7 Apr 2024 12:25:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-09 18:22:15.510699
Title: Prompting Large Language Models for Zero-shot Essay Scoring via Multi-trait Specialization
Title（参考訳）: マルチトレートスペシャライゼーションによるゼロショットエッセイスコーリングのための大規模言語モデルの提案
Authors: Sanwoo Lee, Yida Cai, Desong Meng, Ziyang Wang, Yunfang Wu,
Abstract要約: Multi Trait (MTS)は,大規模言語モデル(LLM)におけるエッセイスコアリング機能を実現するためのフレームワークである。 MTSの助けを借りて、小型のLlama2-13b-chatはChatGPTを著しく上回り、実際のアプリケーションに効果的なデプロイを促進する。
参考スコア（独自算出の注目度）: 12.66710643199155
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Advances in automated essay scoring (AES) have traditionally relied on labeled essays, requiring tremendous cost and expertise for their acquisition. Recently, large language models (LLMs) have achieved great success in various tasks, but their potential is less explored in AES. In this paper, we propose Multi Trait Specialization (MTS), a zero-shot prompting framework to elicit essay scoring capabilities in LLMs. Specifically, we leverage ChatGPT to decompose writing proficiency into distinct traits and generate scoring criteria for each trait. Then, an LLM is prompted to extract trait scores from several conversational rounds, each round scoring one of the traits based on the scoring criteria. Finally, we derive the overall score via trait averaging and min-max scaling. Experimental results on two benchmark datasets demonstrate that MTS consistently outperforms straightforward prompting (Vanilla) in average QWK across all LLMs and datasets, with maximum gains of 0.437 on TOEFL11 and 0.355 on ASAP. Additionally, with the help of MTS, the small-sized Llama2-13b-chat substantially outperforms ChatGPT, facilitating an effective deployment in real applications.
Abstract（参考訳）: 自動エッセイ評価(AES)の進歩は、伝統的にラベル付きエッセイに依存しており、買収には莫大なコストと専門知識を必要としている。近年,大規模言語モデル (LLM) は様々なタスクにおいて大きな成功を収めている。本稿では,LLMにおけるエッセイ評価能力を引き出すため,ゼロショットプロンプトフレームワークであるマルチトレートスペシャライゼーション(MTS)を提案する。具体的には、ChatGPTを利用して、文字の習熟度を異なる特徴に分解し、各特徴のスコアリング基準を生成する。そして、LLMが複数の対話ラウンドから特徴点を抽出するよう促され、各ラウンドは評価基準に基づいて特徴点の1つをスコアする。最後に、特性平均化とmin-maxスケーリングによる全体的なスコアを導出する。 2つのベンチマークデータセットの実験結果から、TSは平均的なQWK(Vanilla)をすべてのLLMとデータセットで一貫して上回り、TOEFL11では0.437、ASAPでは0.355となっている。さらに、MSSの助けを借りて、小型のLlama2-13b-chatはChatGPTを大幅に上回り、実際のアプリケーションに効果的なデプロイを促進する。

関連論文リスト

Automated Refinement of Essay Scoring Rubrics for Language Models via Reflect-and-Revise [41.16092952642748]
本研究では,Large Language Models (LLMs) で使用されているれんがを精製することにより,AES(Automated Scoring)を向上する可能性について検討する。 GPT-4.1、Gemini-2.5-Pro、Qwen-3-Next-80B-A3B-Instructによるデータセットの実験では、最大0.19と0.47の改善が得られた。
論文参考訳（メタデータ） (2025-10-10T06:05:38Z)
Let's Use ChatGPT To Write Our Paper! Benchmarking LLMs To Write the Introduction of a Research Paper [64.50822834679101]
SciIGは、タイトル、抽象、および関連する作品からコヒーレントな紹介を生成するLLMの能力を評価するタスクである。オープンソース (DeepSeek-v3, Gemma-3-12B, LLaMA 4-Maverick, MistralAI Small 3.1) およびクローズドソース GPT-4o システムを含む5つの最先端モデルを評価する。結果は、特に意味的類似性と忠実性において、ほとんどのメトリクスにおいて、LLaMA-4 Maverickの優れたパフォーマンスを示す。
論文参考訳（メタデータ） (2025-08-19T21:11:11Z)
Rank-Then-Score: Enhancing Large Language Models for Automated Essay Scoring [6.459215652021233]
大規模言語モデルに基づく微調整フレームワークであるRange-Then-Score (RTS)を提案する。 HSKとASAPという2つのベンチマークデータセットの実験結果は、RTSが平均QWKで直接プロンプト(Vanilla)法を一貫して上回っていることを示している。
論文参考訳（メタデータ） (2025-04-08T07:10:51Z)
Teach-to-Reason with Scoring: Self-Explainable Rationale-Driven Multi-Trait Essay Scoring [5.632624116225276]
マルチトレイ自動化エッセイスコアシステム(AES)は、エッセイの多様な側面のきめ細かい評価を提供する。以前のシステムは、なぜ特定の特性スコアが割り当てられたのかを説明できない。本稿では,自己説明可能なRationale-Driven Multi-Trit自動評価フレームワークを提案する。
論文参考訳（メタデータ） (2025-02-28T05:54:23Z)
SPARC: Score Prompting and Adaptive Fusion for Zero-Shot Multi-Label Recognition in Vision-Language Models [74.40683913645731]
Zero-shot Multi-label Recognition (MLR) with Vision-Language Models (VLMs) は、トレーニングデータ、モデルチューニング、アーキテクチャの変更なしに重要な課題に直面している。我々の研究は、VLMをブラックボックスとして扱い、トレーニングデータや地上の真実を使わずにスコアを活用する新しいソリューションを提案する。これらのプロンプトスコアの分析により、VLMバイアスとAND'/OR信号の曖昧さが明らかになり、特に、最高スコアは2番目に高いスコアに比べて驚くほど低い。
論文参考訳（メタデータ） (2025-02-24T07:15:05Z)
MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文参考訳（メタデータ） (2024-12-06T18:14:24Z)
Rationale Behind Essay Scores: Enhancing S-LLM's Multi-Trait Essay Scoring with Rationale Generated by LLMs [2.324913904215885]
本稿では,Rationale-based Multiple Trait Scoring (RMTS)について紹介する。 RMTSは、プロンプトエンジニアリングに基づく大規模言語モデル(LLM)と、より小さな大規模言語モデル(S-LLM)を用いた微調整ベースのエッセイスコアモデルを統合する。 ASAP、ASAP++、Feedback Prizeなどのベンチマークデータセットの実験では、RMTSが特性特異的スコアリングにおいて最先端のモデルとバニラS-LLMを著しく上回っていることが示されている。
論文参考訳（メタデータ） (2024-10-18T06:35:17Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Is GPT-4 Alone Sufficient for Automated Essay Scoring?: A Comparative Judgment Approach Based on Rater Cognition [0.09208007322096534]
大規模言語モデル (LLM) は自動エッセイスコーリング (AES) において有望であることを示す。 LLMはAESで有望だが、そのゼロショットと少数ショットのパフォーマンスは、最先端のモデルや人間のレーダに比べて低い。本研究では,2つのエッセイを選択するためにゼロショットプロンプトを用いて,ALMと比較判断(CJ)を組み合わせた新しいアプローチを提案する。
論文参考訳（メタデータ） (2024-07-08T08:37:00Z)
Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文参考訳（メタデータ） (2024-06-07T11:37:45Z)
Can Large Language Models Automatically Score Proficiency of Written Essays? [3.993602109661159]
大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。我々は,LLMの強力な言語知識を活かして,エッセイを分析し,効果的に評価する能力をテストする。
論文参考訳（メタデータ） (2024-03-10T09:39:00Z)
The Eval4NLP 2023 Shared Task on Prompting Large Language Models as Explainable Metrics [36.52897053496835]
生成型大規模言語モデル (LLM) は、タスクに関連する最小あるいは全くの例でタスクを解く顕著な能力を示している。 Eval4NLP 2023共有タスクを導入し、参加者に対して機械翻訳(MT)と要約評価のためのプロンプトとスコア抽出について検討する。本稿では,参加者のアプローチの概要を述べるとともに,MTと要約データセットの3つの言語対にまたがる新しい参照なしテストセットについて評価する。
論文参考訳（メタデータ） (2023-10-30T17:55:08Z)
BLESS: Benchmarking Large Language Models on Sentence Simplification [55.461555829492866]
我々は、テキスト単純化(TS)タスク上で、最新の最先端の大規模言語モデル(LLM)のパフォーマンスベンチマークであるBLESSを紹介する。異なるドメイン(Wikipedia、ニュース、医療)の3つのテストセットに対して、サイズ、アーキテクチャ、事前学習方法、アクセシビリティの異なる44のモデルを評価する。評価の結果,最高のLSMはTSのトレーニングを受けていないにもかかわらず,最先端のTSベースラインと相容れない性能を示した。
論文参考訳（メタデータ） (2023-10-24T12:18:17Z)
Large Language Models are Not Yet Human-Level Evaluators for Abstractive Summarization [66.08074487429477]
抽象的な要約のための自動評価器として,大規模言語モデル(LLM)の安定性と信頼性について検討する。また、ChatGPTとGPT-4は、一般的に使われている自動測定値よりも優れていますが、人間の代替品として準備ができていません。
論文参考訳（メタデータ） (2023-05-22T14:58:13Z)
Benchmarking Large Language Models for News Summarization [79.37850439866938]
大規模言語モデル(LLM)は自動要約を約束しているが、その成功の背景にある理由はよく分かっていない。 LLMのゼロショット要約能力の鍵は、モデルサイズではなく、命令チューニングにある。
論文参考訳（メタデータ） (2023-01-31T18:46:19Z)
Large Language Models are Zero-Shot Reasoners [28.6899375595088]
思考の連鎖(CoT)プロンプトは、ステップバイステップの回答例を通して複雑な多段階推論を引き出す手法である。 LLMは、各回答の前に単に「ステップバイステップ」を追加して、まともなゼロショット推論子であることを示す。実験結果から,同一のプロンプトテンプレートを用いたZero-shot-CoTはゼロショットLLM性能を著しく上回ることがわかった。
論文参考訳（メタデータ） (2022-05-24T09:22:26Z)
Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。 AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文参考訳（メタデータ） (2020-07-14T03:49:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。