論文の概要: Improve LLM-based Automatic Essay Scoring with Linguistic Features
- arxiv url: http://arxiv.org/abs/2502.09497v1
- Date: Thu, 13 Feb 2025 17:09:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 13:50:24.356609
- Title: Improve LLM-based Automatic Essay Scoring with Linguistic Features
- Title(参考訳): 言語的特徴を考慮したLLMに基づく自動評価法の改良
- Authors: Zhaoyi Joey Hou, Alejandro Ciuba, Xiang Lorraine Li,
- Abstract要約: 本稿では,多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発した。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
- 参考スコア(独自算出の注目度): 46.41475844992872
- License:
- Abstract: Automatic Essay Scoring (AES) assigns scores to student essays, reducing the grading workload for instructors. Developing a scoring system capable of handling essays across diverse prompts is challenging due to the flexibility and diverse nature of the writing task. Existing methods typically fall into two categories: supervised feature-based approaches and large language model (LLM)-based methods. Supervised feature-based approaches often achieve higher performance but require resource-intensive training. In contrast, LLM-based methods are computationally efficient during inference but tend to suffer from lower performance. This paper combines these approaches by incorporating linguistic features into LLM-based scoring. Experimental results show that this hybrid method outperforms baseline models for both in-domain and out-of-domain writing prompts.
- Abstract(参考訳): AES(Automatic Essay Scoring)は、学生エッセイにスコアを割り当て、インストラクターの作業負荷を削減します。
多様なプロンプトにまたがってエッセイを処理できるスコアリングシステムを開発することは、書込み作業の柔軟性と多様な性質のために困難である。
既存のメソッドは通常、2つのカテゴリに分類される: 教師付き特徴ベースのアプローチと、大きな言語モデル(LLM)ベースの方法。
改善された機能ベースのアプローチは、しばしばより高いパフォーマンスを達成するが、リソース集約的なトレーニングを必要とする。
対照的に、LLMベースの手法は推論時に計算効率が良いが、性能が低下する傾向にある。
本稿では,言語的特徴をLLMに基づくスコアリングに組み込むことによって,これらのアプローチを組み合わせる。
実験の結果,本手法はドメイン内およびドメイン外の書き込みプロンプトのベースラインモデルよりも優れていることがわかった。
関連論文リスト
- LLM-AutoDiff: Auto-Differentiate Any LLM Workflow [58.56731133392544]
自動プロンプト工学(APE)のための新しいフレームワーク LLM-AutoDiff について紹介する。
LLMs-AutoDiffは、各テキスト入力をトレーニング可能なパラメータとして扱い、フリーズした後方エンジンを使用して、テキスト勾配に対するフィードバック・アキンを生成する。
精度とトレーニングコストの両方において、既存のテキスト勾配ベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2025-01-28T03:18:48Z) - Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。
本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。
多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文 参考訳(メタデータ) (2024-11-26T00:15:37Z) - How Hard is this Test Set? NLI Characterization by Exploiting Training Dynamics [49.9329723199239]
本稿では, 実例と非実例を手作業で構築することなく, 挑戦的なテストセットを自動生成する手法を提案する。
一般的なNLIデータセットのテストセットを,トレーニングダイナミクスを利用した3つの難易度に分類する。
我々の評価法がトレーニングセットに適用された場合、トレーニング対象データのごく一部でトレーニングされたモデルは、フルデータセットでトレーニングされたモデルに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-10-04T13:39:21Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - LLMEmbed: Rethinking Lightweight LLM's Genuine Function in Text Classification [13.319594321038926]
本稿では,この古典的だが挑戦的な課題に対処するために,LLMEmbedという,シンプルで効果的なトランスファー学習戦略を提案する。
その結果,LLMEmbedはトレーニングのオーバーヘッドを低く抑えながら,高い性能を発揮することがわかった。
論文 参考訳(メタデータ) (2024-06-06T03:46:59Z) - Thinking Fair and Slow: On the Efficacy of Structured Prompts for Debiasing Language Models [14.405446719317291]
既存のデバイアス技術はトレーニングベースまたはモデルの内部および出力分布へのアクセスを必要とするのが一般的である。
我々は,システム2の思考プロセスを適用し,論理的,反射的,批判的テキスト生成を誘導する,包括的エンドユーザー中心のデバイアスの反復的枠組みを評価する。
論文 参考訳(メタデータ) (2024-05-16T20:27:58Z) - LLM-augmented Preference Learning from Natural Language [19.700169351688768]
大規模言語モデル(LLM)は、より大きな文脈長を扱う。
LLM は、ターゲットテキストが大きければ SotA を一貫して上回る。
ゼロショット学習よりもパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-10-12T17:17:27Z) - Automatically Correcting Large Language Models: Surveying the landscape
of diverse self-correction strategies [104.32199881187607]
大規模言語モデル(LLM)は、幅広いNLPタスクで顕著な性能を示した。
これらの欠陥を正すための有望なアプローチは自己補正であり、LLM自体が自身の出力で問題を修正するために誘導される。
本稿では,この新技術について概観する。
論文 参考訳(メタデータ) (2023-08-06T18:38:52Z) - OverPrompt: Enhancing ChatGPT through Efficient In-Context Learning [49.38867353135258]
複数のタスク入力を処理するために,LLMのコンテキスト内学習機能を活用したOverPromptを提案する。
本実験により,OverPromptはタスク性能を著しく損なうことなく,コスト効率の良いゼロショット分類を実現することができることがわかった。
論文 参考訳(メタデータ) (2023-05-24T10:08:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。