論文の概要: Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts
- arxiv url: http://arxiv.org/abs/2405.09482v2
- Date: Thu, 6 Jun 2024 07:40:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 20:23:24.038922
- Title: Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts
- Title(参考訳): Flesch-Kincaidを超えて: プロンプトベースのメトリクスは教育用テキストの難解な分類を改善する
- Authors: Donya Rooein, Paul Rottger, Anastassia Shaitarova, Dirk Hovy,
- Abstract要約: 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
Flesch-Kincaid Reading Easeスコアのような、テキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
本稿では,テキストの難易度向上のための新しいPromptベースのメトリクスセットを紹介し,評価する。
- 参考スコア(独自算出の注目度): 20.933548500888595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using large language models (LLMs) for educational applications like dialogue-based teaching is a hot topic. Effective teaching, however, requires teachers to adapt the difficulty of content and explanations to the education level of their students. Even the best LLMs today struggle to do this well. If we want to improve LLMs on this adaptation task, we need to be able to measure adaptation success reliably. However, current Static metrics for text difficulty, like the Flesch-Kincaid Reading Ease score, are known to be crude and brittle. We, therefore, introduce and evaluate a new set of Prompt-based metrics for text difficulty. Based on a user study, we create Prompt-based metrics as inputs for LLMs. They leverage LLM's general language understanding capabilities to capture more abstract and complex features than Static metrics. Regression experiments show that adding our Prompt-based metrics significantly improves text difficulty classification over Static metrics alone. Our results demonstrate the promise of using LLMs to evaluate text adaptation to different education levels.
- Abstract(参考訳): 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
しかし、効果的な教育は、教師が内容の難しさと説明を生徒の教育レベルに適応させることを要求する。
最高のLLMでさえ、これをうまくやるのに苦労しています。
この適応タスクでLLMを改善したい場合は、適応の成功を確実に測定できる必要がある。
しかし、Flesch-Kincaid Reading Easeスコアのようなテキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
そこで本研究では,テキストの難易度向上のために,Promptベースのメトリクスセットを導入し,評価する。
ユーザスタディに基づいて,LLMの入力としてPromptベースのメトリクスを作成する。
LLMの汎用言語理解機能を活用して、静的メトリクスよりも抽象的で複雑な特徴を捉える。
回帰実験により、Promptベースのメトリクスを追加することで、静的メトリクスのみに対するテキストの難易度分類が大幅に改善されることが示された。
本研究は,LLMを用いて異なる教育レベルへのテキスト適応を評価することの可能性を実証するものである。
関連論文リスト
- CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - What Did I Do Wrong? Quantifying LLMs' Sensitivity and Consistency to Prompt Engineering [8.019873464066308]
分類タスク,すなわち感度と一貫性の2つの指標を導入する。
感度はプロンプトの 言い換えによる予測の変化を測る
その代わり、一貫性は、同じクラスの要素の言い換えで予測がどのように変化するかを測定する。
論文 参考訳(メタデータ) (2024-06-18T06:59:24Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - Do LLMs Implicitly Determine the Suitable Text Difficulty for Users? [29.6000895693808]
大規模言語モデルでは,ユーザ入力と生成されたテキスト間のテキストの難易度を暗黙的に処理できることを示す。
一部のLLMは、テキストの難易度や命令調整の重要性に人間を超えることができる。
論文 参考訳(メタデータ) (2024-02-22T11:16:23Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
Alignedcotは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。