論文の概要: Evaluating GenAI for Simplifying Texts for Education: Improving Accuracy and Consistency for Enhanced Readability
- arxiv url: http://arxiv.org/abs/2501.09158v1
- Date: Wed, 15 Jan 2025 21:19:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-17 15:10:46.670036
- Title: Evaluating GenAI for Simplifying Texts for Education: Improving Accuracy and Consistency for Enhanced Readability
- Title(参考訳): 教育用テキストの簡易化のためのGenAIの評価:読みやすさ向上のための正確性と一貫性の向上
- Authors: Stephanie L. Day, Jacapo Cirica, Steven R. Clapp, Veronika Penkova, Amy E. Giroux, Abbey Banta, Catherine Bordeau, Poojitha Mutteneni, Ben D. Sawyer,
- Abstract要約: 生成的人工知能(GenAI)は、パーソナライズされた学習を支援するツールとして、非常に有望である。
大きな言語モデル(LLM)は、このニーズを満たす可能性を示しているが、以前の研究では、現在のアプローチで複数の欠点が指摘されている。
本研究では,LLM,プロンプト技術,新しいマルチエージェントアーキテクチャを用いた精度と一貫性の体系的評価のための一般化されたアプローチとメトリクスを導入した。
- 参考スコア(独自算出の注目度): 0.34826922265324145
- License:
- Abstract: Generative artificial intelligence (GenAI) holds great promise as a tool to support personalized learning. Teachers need tools to efficiently and effectively enhance content readability of educational texts so that they are matched to individual students reading levels, while retaining key details. Large Language Models (LLMs) show potential to fill this need, but previous research notes multiple shortcomings in current approaches. In this study, we introduced a generalized approach and metrics for the systematic evaluation of the accuracy and consistency in which LLMs, prompting techniques, and a novel multi-agent architecture to simplify sixty informational reading passages, reducing each from the twelfth grade level down to the eighth, sixth, and fourth grade levels. We calculated the degree to which each LLM and prompting technique accurately achieved the targeted grade level for each passage, percentage change in word count, and consistency in maintaining keywords and key phrases (semantic similarity). One-sample t-tests and multiple regression models revealed significant differences in the best performing LLM and prompt technique for each of the four metrics. Both LLMs and prompting techniques demonstrated variable utility in grade level accuracy and consistency of keywords and key phrases when attempting to level content down to the fourth grade reading level. These results demonstrate the promise of the application of LLMs for efficient and precise automated text simplification, the shortcomings of current models and prompting methods in attaining an ideal balance across various evaluation criteria, and a generalizable method to evaluate future systems.
- Abstract(参考訳): 生成的人工知能(GenAI)は、パーソナライズされた学習を支援するツールとして、非常に有望である。
教師は、教育用テキストのコンテンツ読みやすさを効果的かつ効果的に向上させ、個々の生徒の読み書きレベルに適合させながら、重要な詳細を保持できるツールを必要としている。
大きな言語モデル(LLM)は、このニーズを満たす可能性を示しているが、以前の研究では、現在のアプローチで複数の欠点が指摘されている。
本研究では,LLMの精度と一貫性を体系的に評価するための一般化されたアプローチとメトリクスを導入し,新しいマルチエージェントアーキテクチャにより,60の情報読解通路を簡素化し,12年生から8年生,6年生,4年生までを削減した。
我々は,各 LLM とプロンプト技術が,各節の目標グレードレベル,単語数の変化率,キーワードとキーフレーズ(意味的類似性)の一貫性を正確に達成した度合いを計算した。
1サンプルのt-testと複数回帰モデルでは,4つの指標のそれぞれに対して,最高のLCMとプロンプト技術に有意な差が認められた。
LLMとプロンプト技術は,第4学年の読解レベルまで内容のレベルを下げようとする際に,キーワードやキーフレーズの精度と一貫性の変動性を実証した。
これらの結果から,LLMを効率よくかつ高精度に自動化されたテキストの簡易化に適用できること,現在のモデルの欠点,様々な評価基準をまたいで理想的なバランスをとるための方法,将来的なシステム評価のための一般化可能な手法が示された。
関連論文リスト
- Unveiling Large Language Models Generated Texts: A Multi-Level Fine-Grained Detection Framework [9.976099891796784]
大型言語モデル (LLM) は文法の修正、内容の拡張、文体の改良によって人間の書き方を変えてきた。
既存の検出方法は、主に単一機能分析とバイナリ分類に依存しているが、学術的文脈においてLLM生成テキストを効果的に識別することができないことが多い。
低レベル構造, 高レベル意味, 深層言語的特徴を統合することで, LLM生成テキストを検出する多レベルきめ細粒度検出フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-18T07:25:00Z) - The Future of Learning in the Age of Generative AI: Automated Question Generation and Assessment with Large Language Models [0.0]
大規模言語モデル(LLM)と生成AIは、自然言語処理(NLP)に革命をもたらした。
本章では,自動質問生成と回答評価におけるLLMの変容の可能性について考察する。
論文 参考訳(メタデータ) (2024-10-12T15:54:53Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - ReadCtrl: Personalizing text generation with readability-controlled instruction learning [12.493713890977943]
Readability-Controlled Instruction Learning (ReadCtrl) は,大規模言語モデル (LLM) を指導し,ユーザの可読性レベルを調整することを目的としている。
その結果,ReadCtrl-Mistral-7BモデルはGPT-4やClaude-3といった強力なベースラインモデルよりも優れていた。
これらの結果は、高品質で文脈的に適切な出力を生成する上でのRead-Ctrlの有効性と忍耐性を裏付けるものである。
論文 参考訳(メタデータ) (2024-06-13T15:03:46Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Semantic Consistency for Assuring Reliability of Large Language Models [9.876355290198639]
大規模言語モデル(LLM)は、様々な自然言語タスクに対して顕著な流布と能力を示す。
セマンティック一貫性の一般的な尺度を導入し、様々なLLMの性能を評価するために、この指標の複数バージョンを定式化する。
本稿では,Ask-to-Choose (A2C) と呼ばれる新しいプロンプト戦略を提案する。
論文 参考訳(メタデータ) (2023-08-17T18:11:33Z) - Can LLMs Express Their Uncertainty? An Empirical Evaluation of Confidence Elicitation in LLMs [60.61002524947733]
従来の信頼性推論手法は、内部モデル情報やモデル微調整へのホワイトボックスアクセスに依存していた。
これにより、不確実性推定のためのブラックボックスアプローチの未解決領域を探索する必要性が高まっている。
言語的信頼を導き出すための戦略の推進、複数の応答を生成するためのサンプリング方法、一貫性を計算するための集約手法の3つの要素からなる体系的フレームワークを定義する。
論文 参考訳(メタデータ) (2023-06-22T17:31:44Z) - Evaluating Factual Consistency of Summaries with Large Language Models [24.416837319515896]
大規模言語モデル(LLM)の直接的推進による要約の事実整合性の評価について検討する。
実験により, LLM のプロンプトは, 全ての設定において, 過去の最良事実性システムより優れていることが示された。
論文 参考訳(メタデータ) (2023-05-23T13:48:32Z) - TEMPERA: Test-Time Prompting via Reinforcement Learning [57.48657629588436]
強化学習(TEMPERA)を用いたテスト時間プロンプト編集を提案する。
従来のプロンプト生成手法とは対照的に、TEMPERAは事前知識を効率的に活用することができる。
本手法は従来の微調整法と比較して試料効率の平均改善率を5.33倍に向上させる。
論文 参考訳(メタデータ) (2022-11-21T22:38:20Z) - LASP: Text-to-Text Optimization for Language-Aware Soft Prompting of
Vision & Language Models [67.19124099815645]
ベースクラスオーバーフィットを軽減するために,Language-Aware Soft Prompting (LASP) 学習手法を提案する。
LASPは本質的に、トレーニング中に仮想クラス、すなわちビジュアルサンプルが使用できないクラス名を含むことができる。
LASPは、手作りのプロンプトとCLIPによる11のテストデータセットのうち8つの新しいクラスの精度が初めて一致し、上回っている。
論文 参考訳(メタデータ) (2022-10-03T17:56:35Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。