論文の概要: Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education
- arxiv url: http://arxiv.org/abs/2407.17022v1
- Date: Wed, 24 Jul 2024 06:02:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-25 14:43:30.648596
- Title: Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education
- Title(参考訳): 言語モデルによる人書きテキストの評価は可能か? : 韓国人学生による教育用文章作成を事例として
- Authors: Seungyoon Kim, Seungone Kim,
- Abstract要約: 大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
LLMが教育目的のために人文テキストを効果的に評価できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 1.6340559025561785
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM)-based evaluation pipelines have demonstrated their capability to robustly evaluate machine-generated text. Extending this methodology to assess human-written text could significantly benefit educational settings by providing direct feedback to enhance writing skills, although this application is not straightforward. In this paper, we investigate whether LLMs can effectively assess human-written text for educational purposes. We collected 100 texts from 32 Korean students across 15 types of writing and employed GPT-4-Turbo to evaluate them using grammaticality, fluency, coherence, consistency, and relevance as criteria. Our analyses indicate that LLM evaluators can reliably assess grammaticality and fluency, as well as more objective types of writing, though they struggle with other criteria and types of writing. We publicly release our dataset and feedback.
- Abstract(参考訳): 大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
この方法論を人書きテキスト評価に拡張することは、直接フィードバックを提供することで、文字スキルを向上させることで、教育的な設定に大きく貢献するが、このアプリケーションは簡単ではない。
本稿では,LLMが教育目的の人文テキストを効果的に評価できるかどうかを検討する。
韓国の学生32名を対象に15種類の文章を収集し,GPT-4-Turboを用いて文法性,流布度,一貫性,一貫性,関連性を基準として評価した。
分析の結果,LLM評価器は,他の基準や書式と競合するが,文法性や流布度を確実に評価できるだけでなく,より客観的な書式も評価できることがわかった。
データセットとフィードバックを公開しています。
関連論文リスト
- Exploring LLM Prompting Strategies for Joint Essay Scoring and Feedback Generation [13.854903594424876]
大規模言語モデル(LLM)は、一貫性と文脈に関連のあるテキストを生成する上で、強力な性能を示している。
本研究は,LLMをベースとしたゼロショットと数発のエッセイフィードバックの促進戦略について検討する。
Chain-of-Thoughtのプロンプトにインスパイアされた私たちは、自動エッセイスコア(AES)が生成したフィードバックの品質にどのような影響を及ぼすか、その程度について調査する。
論文 参考訳(メタデータ) (2024-04-24T12:48:06Z) - Navigating the Path of Writing: Outline-guided Text Generation with Large Language Models [8.920436030483872]
本稿では,Large Language Models (LLMs) をユーザ整列テキスト生成のガイドとして,明示的なアウトラインを用いたLinging Pathを提案する。
我々のアプローチは、構造化された記述計画と推論パスからインスピレーションを得て、書き込みプロセス全体を通してユーザの意図を捉え、反映することに重点を置いています。
論文 参考訳(メタデータ) (2024-04-22T06:57:43Z) - Automatic Generation and Evaluation of Reading Comprehension Test Items with Large Language Models [1.565361244756411]
本稿では,大規模言語モデル(LLM)を用いて読解項目の生成と評価を行う。
我々は人的・自動的な評価のためのプロトコルを開発した。
以上の結果から,両モデルともゼロショット設定で許容品質のアイテムを生成できることが示唆されるが,GPT-4はLlama 2より明らかに優れていた。
論文 参考訳(メタデータ) (2024-04-11T13:11:21Z) - From Model-centered to Human-Centered: Revision Distance as a Metric for Text Evaluation in LLMs-based Applications [26.857056013032263]
大規模言語モデル(LLM)の評価は、特に実践的な応用の文脈において、基本的なものである。
我々の研究は、AIを活用した筆記支援システムの文脈において、モデル中心から人中心評価に焦点を移す。
論文 参考訳(メタデータ) (2024-04-10T15:46:08Z) - Attribute Structuring Improves LLM-Based Evaluation of Clinical Text
Summaries [62.32403630651586]
大規模言語モデル(LLM)は、正確な臨床テキスト要約を生成する可能性を示しているが、根拠付けと評価に関する問題に苦慮している。
本稿では、要約評価プロセスを構成するAttribute Structuring(AS)を用いた一般的な緩和フレームワークについて検討する。
ASは、臨床テキスト要約における人間のアノテーションと自動メトリクスの対応性を一貫して改善する。
論文 参考訳(メタデータ) (2024-03-01T21:59:03Z) - DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - INSTRUCTSCORE: Explainable Text Generation Evaluation with Finegrained
Feedback [80.57617091714448]
テキスト生成のための説明可能な評価指標であるInstructScoreを提案する。
LLaMAに基づいてテキスト評価基準を微調整し、生成されたテキストのスコアと人間の可読性診断レポートを生成する。
論文 参考訳(メタデータ) (2023-05-23T17:27:22Z) - Can Large Language Models Be an Alternative to Human Evaluations? [80.81532239566992]
大規模言語モデル(LLM)は、タスク命令のみを提供する場合、目に見えないタスクに対して例外的な性能を示す。
LLM評価の結果は、専門家による評価の結果と一致していることを示す。
論文 参考訳(メタデータ) (2023-05-03T07:28:50Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。