論文の概要: EssayBench: Evaluating Large Language Models in Multi-Genre Chinese Essay Writing
- arxiv url: http://arxiv.org/abs/2506.02596v1
- Date: Tue, 03 Jun 2025 08:14:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.47852
- Title: EssayBench: Evaluating Large Language Models in Multi-Genre Chinese Essay Writing
- Title(参考訳): EssayBench: 多世代中国語エッセイ作成における大規模言語モデルの評価
- Authors: Fan Gao, Dongyuan Li, Ding Xia, Fei Mi, Yasheng Wang, Lifeng Shang, Baojun Wang,
- Abstract要約: benchNameは4つの主要なジャンル(Argumentative, Narrative, Descriptive, Expository)にまたがる中国語エッセイを書くために設計されたマルチジャンルのベンチマークである。
階層的にスコアを集計する,きめ細かなジャンル別スコアリングフレームワークを開発した。
我々は15個の大型LCMをベンチマークし、ジャンルや命令タイプにまたがる長所と短所を分析した。
- 参考スコア(独自算出の注目度): 47.704427451419456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Chinese essay writing and its evaluation are critical in educational contexts, yet the capabilities of Large Language Models (LLMs) in this domain remain largely underexplored. Existing benchmarks often rely on coarse-grained text quality metrics, largely overlooking the structural and rhetorical complexities of Chinese essays, particularly across diverse genres. To address this gap, we propose \benchName, a multi-genre benchmark specifically designed for Chinese essay writing across four major genres: Argumentative, Narrative, Descriptive, and Expository. We curate and refine a total of 728 real-world prompts to ensure authenticity and meticulously categorize them into the \textit{Open-Ended} and \textit{Constrained} sets to capture diverse writing scenarios. To reliably evaluate generated essays, we develop a fine-grained, genre-specific scoring framework that hierarchically aggregates scores. We further validate our evaluation protocol through a comprehensive human agreement study. Finally, we benchmark 15 large-sized LLMs, analyzing their strengths and limitations across genres and instruction types. With \benchName, we aim to advance LLM-based Chinese essay evaluation and inspire future research on improving essay generation in educational settings.
- Abstract(参考訳): 中国のエッセイの執筆とその評価は、教育的文脈において重要であるが、この領域におけるLarge Language Models(LLMs)の能力は、いまだほとんど解明されていない。
既存のベンチマークは、しばしば粗い粒度のテキスト品質の指標に依存しており、特に様々なジャンルにおいて、中国のエッセイの構造的・修辞的な複雑さを見下ろしている。
このギャップに対処するために,中国語エッセイを書くための多ジャンルのベンチマークである \benchName を提案する。
我々は,728個の実世界のプロンプトをキュレートし,信頼性を確保するとともに,それらをさまざまな記述シナリオをキャプチャするために, \textit{Open-Ended} と \textit{Constrained} のセットに分類する。
生成されたエッセイを確実に評価するために,階層的にスコアを集計する,きめ細かなジャンル別スコアリングフレームワークを開発した。
我々は、包括的な人的合意研究を通じて、評価プロトコルをさらに検証する。
最後に、15個の大型LCMをベンチマークし、ジャンルや命令タイプにまたがる長所と短所を分析した。
本研究の目的は,LLMに基づく中国エッセイ評価を推進し,教育環境におけるエッセイ生成の改善に向けた今後の研究を刺激することである。
関連論文リスト
- Fùxì: A Benchmark for Evaluating Language Models on Ancient Chinese Text Understanding and Generation [20.87296508045343]
我々は21種類のタスクに対する理解と生成の両方の能力を評価する総合的なベンチマークであるFuxiを紹介する。
我々は,理解タスクと生成タスクの間に大きなパフォーマンスギャップを生じさせ,モデルが有望な結果を得るためには理解が難しいが,生成タスクではかなり苦労する。
本研究は,古代中国のテキスト処理における現状の限界に注目し,今後のモデル開発への洞察を提供するものである。
論文 参考訳(メタデータ) (2025-03-20T04:26:40Z) - WritingBench: A Comprehensive Benchmark for Generative Writing [87.48445972563631]
writeBenchは、6つのコア書き込みドメインと100の技術的記述を含む大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
本稿では、LCMがインスタンス固有の評価基準を動的に生成することを可能にするクエリ依存評価フレームワークを提案する。
このフレームワークは、基準対応スコアリングのための微調整された批評家モデルによって補完され、スタイル、フォーマット、長さの評価を可能にする。
論文 参考訳(メタデータ) (2025-03-07T08:56:20Z) - Can Language Models Evaluate Human Written Text? Case Study on Korean Student Writing for Education [1.6340559025561785]
大規模言語モデル(LLM)に基づく評価パイプラインは、機械生成テキストを堅牢に評価する能力を示した。
LLMが教育目的のために人文テキストを効果的に評価できるかどうかを検討する。
論文 参考訳(メタデータ) (2024-07-24T06:02:57Z) - A School Student Essay Corpus for Analyzing Interactions of Argumentative Structure and Quality [12.187586364960758]
我々は,2つの年齢集団の学生のエッセイ1,320件のドイツ語コーパスを提示する。
各エッセイは、複数のレベルの粒度の議論的構造と品質のために手動で注釈付けされている。
議論マイニングとエッセイスコアリングのためのベースラインアプローチを提案し,両タスク間の相互作用を分析する。
論文 参考訳(メタデータ) (2024-04-03T07:31:53Z) - Advancing Topic Segmentation and Outline Generation in Chinese Texts: The Paragraph-level Topic Representation, Corpus, and Benchmark [44.06803331843307]
段落レベルのトピック構造は、ドキュメント全体のコンテキストをより高いレベルから把握し、理解することができる。
大規模で高品質な中国語段落レベルの話題構造コーパスの欠如は研究や応用を妨げた。
コーパス構築を導くために,3層からなる階層的な段落レベルのトピック構造表現を提案する。
2段階のマンマシン・コラボレーティブ・アノテーションを用いて,中国最大規模のトピック構造コーパスを構築する。
論文 参考訳(メタデータ) (2023-05-24T06:43:23Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。