論文の概要: Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring
- arxiv url: http://arxiv.org/abs/2408.13966v1
- Date: Mon, 26 Aug 2024 00:23:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 15:12:30.922234
- Title: Reducing the Cost: Cross-Prompt Pre-Finetuning for Short Answer Scoring
- Title(参考訳): 低コスト化:短絡用クロスプロンプトプレファイバ
- Authors: Hiroaki Funayama, Yuya Asazuma, Yuichiroh Matsubayashi, Tomoya Mizumoto, Kentaro Inui,
- Abstract要約: 我々は既存のルーリックのモデルを訓練し、金のスコア信号で答え、それを新しいプロンプトで微調整する。
実験により、キーフレーズを用いた既存のクロスプロンプトデータの微調整により、スコアリング精度が大幅に向上することが示された。
タスクの汎用性を学ぶためには,モデルの設計が不可欠である。
- 参考スコア(独自算出の注目度): 17.1154345762798
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated Short Answer Scoring (SAS) is the task of automatically scoring a given input to a prompt based on rubrics and reference answers. Although SAS is useful in real-world applications, both rubrics and reference answers differ between prompts, thus requiring a need to acquire new data and train a model for each new prompt. Such requirements are costly, especially for schools and online courses where resources are limited and only a few prompts are used. In this work, we attempt to reduce this cost through a two-phase approach: train a model on existing rubrics and answers with gold score signals and finetune it on a new prompt. Specifically, given that scoring rubrics and reference answers differ for each prompt, we utilize key phrases, or representative expressions that the answer should contain to increase scores, and train a SAS model to learn the relationship between key phrases and answers using already annotated prompts (i.e., cross-prompts). Our experimental results show that finetuning on existing cross-prompt data with key phrases significantly improves scoring accuracy, especially when the training data is limited. Finally, our extensive analysis shows that it is crucial to design the model so that it can learn the task's general property.
- Abstract(参考訳): SAS(Automated Short Answer Scoring)は、ルーブリックと参照回答に基づいて、与えられた入力をプロンプトに自動的にスコアするタスクである。
SASは現実世界のアプリケーションでは有用であるが、ルーブリックと参照の回答はプロンプトによって異なるため、新しいデータを取得して新しいプロンプトごとにモデルをトレーニングする必要がある。
このような要件は、特にリソースが限られており、いくつかのプロンプトしか使用されていない学校やオンラインコースにおいて、コストがかかる。
本研究では,既存のルーリック上でモデルを訓練し,ゴールドスコア信号で回答し,新しいプロンプトで微調整するという2段階のアプローチにより,このコスト削減を試みる。
具体的には、各プロンプトごとにスコアと基準回答が異なることを考慮し、キーフレーズ、あるいはその答えに含まれるべき代表表現を利用し、既に注釈付きプロンプト(例えばクロスプロンプト)を用いて、キーフレーズと回答の関係を学習するためにSASモデルを訓練する。
実験結果から,既存のクロスプロンプトデータのキーフレーズによる微調整は,特にトレーニングデータに制限がある場合,評価精度を著しく向上することが示された。
最後に,タスクの一般的な特性を学習するためには,モデルの設計が不可欠であることを示す。
関連論文リスト
- Beyond Scores: A Modular RAG-Based System for Automatic Short Answer Scoring with Feedback [3.2734777984053887]
そこで本研究では,厳密なゼロショットと少数ショットの学習シナリオにおいて,回答のスコアとフィードバックを生成するモジュール型検索拡張生成システムASAS-Fを提案する。
その結果, 微調整に比べて解答精度が9%向上し, スケーラブルで費用対効果の高い解が得られた。
論文 参考訳(メタデータ) (2024-09-30T07:48:55Z) - Harnessing the Power of Prompt-based Techniques for Generating
School-Level Questions using Large Language Models [0.5459032912385802]
本稿では,プロンプトベースの手法を用いて記述的および推論的質問を生成する手法を提案する。
我々は,NCERT教科書のリッチコンテンツを活用することで,学校レベルの課題を対象とした新しいQGデータセットEduProbeをキュレートする。
変換器をベースとした大規模言語モデルを用いて,いくつかのプロンプトベースのQG手法について検討する。
論文 参考訳(メタデータ) (2023-12-02T05:13:28Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - A Simple Zero-shot Prompt Weighting Technique to Improve Prompt
Ensembling in Text-Image Models [30.128204719490856]
我々は,プロンプトエンジニアリングの自動化と,プロンプトアンサンブルによるゼロショット精度の向上を目指している。
我々は,事前学習およびテストデータに偏りがあるため,スコアが容易に過信されるような,素早いプロンプトスコア法において,いくつかの病理を同定する。
本手法では,提案手法を用いて平均アンサンブルを重み付けし,平均アンサンブルと手作りプロンプトとを比較検討した。
論文 参考訳(メタデータ) (2023-02-13T10:19:58Z) - Global Constraints with Prompting for Zero-Shot Event Argument
Classification [49.84347224233628]
我々は、アノテーションやタスク固有のトレーニングを使わずに、イベント引数の分類に取り組むよう促すことで、グローバルな制約を利用することを提案する。
事前訓練された言語モデルは、新しいパスをスコアし、最初の予測を行う。
私たちの新しいプロンプトテンプレートは、手作業なしで、すべてのイベントや引数タイプに簡単に適応できます。
論文 参考訳(メタデータ) (2023-02-09T06:39:29Z) - Efficiently Enhancing Zero-Shot Performance of Instruction Following
Model via Retrieval of Soft Prompt [56.22456716092954]
ソフトプロンプトの検索は、ゼロショットタスクの一般化において、ハードプロンプトを効率的に支援することができる。
我々は、プロンプトチューニングを通じて各プロンプトに対するソフトプロンプト埋め込みをトレーニングし、プロンプト埋め込みにマップされたトレーニングインスタンスのサンプルを格納し、推論中にクエリインスタンスに最も近いトレーニングインスタンスの対応するプロンプト埋め込みを検索する。
0.007%の追加パラメータしか加えていないが、ソフトプロンプトの検索は、未確認タスクにおけるT0のパフォーマンスを11つのデータセットのうち10で上回り、BIG-benchベンチマークにおけるT0の平均精度を2.39%向上させる。
論文 参考訳(メタデータ) (2022-10-06T16:26:03Z) - How Many Data Points is a Prompt Worth? [106.76346863035786]
プロンプトの支持者は、タスク固有のガイダンスを注入する方法を提供すると主張している。
多くのタスクとデータサイズで、インセンティブとヘッドベースの微調整を等しく比較した。
その結果、プロンプトは分類タスク全体で平均100のデータポイントの価値があります。
論文 参考訳(メタデータ) (2021-03-15T16:10:23Z) - Get It Scored Using AutoSAS -- An Automated System for Scoring Short
Answers [63.835172924290326]
SAS(Automatic Short Answer Scoring)への高速でスケーラブルで正確なアプローチを提示します。
SASのためのシステム、すなわちAutoSASの設計と開発を提案し、説明します。
AutoSASは最先端のパフォーマンスを示し、いくつかの質問のプロンプトで8%以上良い結果が得られる。
論文 参考訳(メタデータ) (2020-12-21T10:47:30Z) - Generating Dialogue Responses from a Semantic Latent Space [75.18449428414736]
語彙のエンドツーエンド分類に代わる方法を提案する。
潜在空間上の回帰タスクとして,プロンプトと応答のペア関係を学習する。
人間の評価は、連続した空間でタスクを学習すると、関連性と情報性の両方を持つ応答が生成されることを示した。
論文 参考訳(メタデータ) (2020-10-04T19:06:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。