論文の概要: Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts
- arxiv url: http://arxiv.org/abs/2405.09482v1
- Date: Wed, 15 May 2024 16:22:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-16 12:56:32.556308
- Title: Beyond Flesch-Kincaid: Prompt-based Metrics Improve Difficulty Classification of Educational Texts
- Title(参考訳): Flesch-Kincaidを超えて: プロンプトベースのメトリクスは教育用テキストの難解な分類を改善する
- Authors: Donya Rooein, Paul Rottger, Anastassia Shaitarova, Dirk Hovy,
- Abstract要約: 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
Flesch-Kincaid Reading Easeスコアのような、テキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
本稿では,テキストの難易度向上のための新しいPromptベースのメトリクスセットを紹介し,評価する。
- 参考スコア(独自算出の注目度): 20.933548500888595
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Using large language models (LLMs) for educational applications like dialogue-based teaching is a hot topic. Effective teaching, however, requires teachers to adapt the difficulty of content and explanations to the education level of their students. Even the best LLMs today struggle to do this well. If we want to improve LLMs on this adaptation task, we need to be able to measure adaptation success reliably. However, current Static metrics for text difficulty, like the Flesch-Kincaid Reading Ease score, are known to be crude and brittle. We, therefore, introduce and evaluate a new set of Prompt-based metrics for text difficulty. Based on a user study, we create Prompt-based metrics as inputs for LLMs. They leverage LLM's general language understanding capabilities to capture more abstract and complex features than Static metrics. Regression experiments show that adding our Prompt-based metrics significantly improves text difficulty classification over Static metrics alone. Our results demonstrate the promise of using LLMs to evaluate text adaptation to different education levels.
- Abstract(参考訳): 対話型教育のような教育アプリケーションに大規模言語モデル(LLM)を使用することは、ホットトピックである。
しかし、効果的な教育は、教師が内容の難しさと説明を生徒の教育レベルに適応させることを要求する。
最高のLLMでさえ、これをうまくやるのに苦労しています。
この適応タスクでLLMを改善したい場合は、適応の成功を確実に測定できる必要がある。
しかし、Flesch-Kincaid Reading Easeスコアのようなテキストの難易度に関する現在の静的指標は粗悪で不安定であることが知られている。
そこで本研究では,テキストの難易度向上のために,Promptベースのメトリクスセットを導入し,評価する。
ユーザスタディに基づいて,LLMの入力としてPromptベースのメトリクスを作成する。
LLMの汎用言語理解機能を活用して、静的メトリクスよりも抽象的で複雑な特徴を捉える。
回帰実験により、Promptベースのメトリクスを追加することで、静的メトリクスのみに対するテキストの難易度分類が大幅に改善されることが示された。
本研究は,LLMを用いて異なる教育レベルへのテキスト適応を評価することの可能性を実証するものである。
関連論文リスト
- Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
本研究では、任意のクエリに付加可能なプロンプトトークンを学習して学習を誘発する、textbfSoft textbfPrompting for textbfUntextbflearning (SPUL)を提案する。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - RepEval: Effective Text Evaluation with LLM Representation [54.07909112633993]
評価のためにLLM表現の投影を利用した最初の計量であるRepEvalを紹介する。
RepEvalはトレーニングに最小限のサンプルペアを必要とし、簡単なプロンプト修正によって、さまざまなタスクに簡単に移行できる。
3つのタスクから得られた10個のデータセットの結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Do LLMs Implicitly Determine the Suitable Text Difficulty for Users? [29.6000895693808]
大規模言語モデルでは,ユーザ入力と生成されたテキスト間のテキストの難易度を暗黙的に処理できることを示す。
一部のLLMは、テキストの難易度や命令調整の重要性に人間を超えることができる。
論文 参考訳(メタデータ) (2024-02-22T11:16:23Z) - When LLMs Meet Cunning Texts: A Fallacy Understanding Benchmark for Large Language Models [59.84769254832941]
本稿では,人間が理解し易いが,理解し難い文を含むFaLlacy Understanding Benchmark (FLUB)を提案する。
具体的には、FLUBが焦点を絞ったcunningテキストは、主に、実際のインターネット環境から収集されたトリッキーでユーモラスで誤解を招くテキストで構成されている。
FLUBに基づいて,複数の代表および先進LLMの性能について検討する。
論文 参考訳(メタデータ) (2024-02-16T22:12:53Z) - Think from Words(TFW): Initiating Human-Like Cognition in Large Language
Models Through Think from Words for Japanese Text-level Classification [0.0]
TFW(Sink from Words)は、単語レベルで理解プロセスを開始し、テキスト全体を包含するように拡張する。
単語レベル情報付きTFW(TFW Extra)は、単語レベルデータを追加して理解を深める。
LLMのテキスト理解における単語レベルの情報型の影響について検討した。
論文 参考訳(メタデータ) (2023-12-06T12:34:46Z) - AlignedCoT: Prompting Large Language Models via Native-Speaking Demonstrations [52.43593893122206]
AlignedCoTは、大規模言語モデルを呼び出すためのコンテキスト内学習技術である。
ゼロショットシナリオでは、一貫した正しいステップワイズプロンプトを達成する。
数学的推論とコモンセンス推論の実験を行う。
論文 参考訳(メタデータ) (2023-11-22T17:24:21Z) - Improving Factual Consistency of Text Summarization by Adversarially
Decoupling Comprehension and Embellishment Abilities of LLMs [67.56087611675606]
大規模言語モデル(LLM)は、本来の記事と現実的に矛盾する要約を生成する。
これらの幻覚は、従来の方法による検出が困難である。
LLM(DECENT)の能力を阻害する逆デカップリング法を提案する。
論文 参考訳(メタデータ) (2023-10-30T08:40:16Z) - TRACE: A Comprehensive Benchmark for Continual Learning in Large
Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。
既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。
LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文 参考訳(メタデータ) (2023-10-10T16:38:49Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。