論文の概要: Automated Genre-Aware Article Scoring and Feedback Using Large Language Models
- arxiv url: http://arxiv.org/abs/2410.14165v1
- Date: Fri, 18 Oct 2024 04:13:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:25:45.058776
- Title: Automated Genre-Aware Article Scoring and Feedback Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いたゲンレ認識記事スコーディングとフィードバックの自動生成
- Authors: Chihang Wang, Yuxin Dong, Zhenhong Zhang, Ruotong Wang, Shuo Wang, Jiajing Chen,
- Abstract要約: 本稿では,高度知的物品スコアリングシステムの開発に焦点をあてる。
著作物の全体的な品質を評価し、様々なジャンルに合わせた詳細な特徴ベースのスコアを提供する。
- 参考スコア(独自算出の注目度): 8.10826723408637
- License:
- Abstract: This paper focuses on the development of an advanced intelligent article scoring system that not only assesses the overall quality of written work but also offers detailed feature-based scoring tailored to various article genres. By integrating the pre-trained BERT model with the large language model Chat-GPT, the system gains a deep understanding of both the content and structure of the text, enabling it to provide a thorough evaluation along with targeted suggestions for improvement. Experimental results demonstrate that this system outperforms traditional scoring methods across multiple public datasets, particularly in feature-based assessments, offering a more accurate reflection of the quality of different article types. Moreover, the system generates personalized feedback to assist users in enhancing their writing skills, underscoring the potential and practical value of automated scoring technologies in educational contexts.
- Abstract(参考訳): 本稿では,著作物の全体的な品質を評価するだけでなく,様々なジャンルに合わせた詳細な特徴に基づくスコアリングを提供する,高度インテリジェントな記事スコアリングシステムの開発に着目する。
事前学習されたBERTモデルを大きな言語モデルであるChat-GPTと統合することにより、システムはテキストの内容と構造の両方を深く理解し、改善を目標とする提案とともに徹底的な評価を可能にする。
実験結果から,本システムは複数の公開データセット,特に特徴に基づく評価において,従来のスコアリング手法よりも優れており,さまざまな記事の質をより正確に反映できることがわかった。
さらに,学習場面における自動採点技術の可能性と実践的価値を強調し,ユーザによる筆記スキル向上を支援するために,パーソナライズされたフィードバックを生成する。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Pronunciation Assessment with Multi-modal Large Language Models [10.35401596425946]
大規模言語モデル(LLM)に基づくスコアリングシステムを提案する。
音声エンコーダは、まず学習者の音声を文脈的特徴にマッピングする。
アダプタ層は、これらの機能を潜在空間に埋め込まれたテキストに合わせるように変換する。
論文 参考訳(メタデータ) (2024-07-12T12:16:14Z) - ElicitationGPT: Text Elicitation Mechanisms via Language Models [12.945581341789431]
本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。
ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
論文 参考訳(メタデータ) (2024-06-13T17:49:10Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - System-Level Natural Language Feedback [83.24259100437965]
システムレベルの設計決定を人為的なループプロセスで形式化する上で,フィードバックの活用方法を示す。
検索クエリと対話応答生成を改善するために,本手法のケーススタディを2つ実施する。
システムレベルのフィードバックとインスタンスレベルのフィードバックの組み合わせは、さらなる利益をもたらします。
論文 参考訳(メタデータ) (2023-06-23T16:21:40Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - Beyond the Tip of the Iceberg: Assessing Coherence of Text Classifiers [0.05857406612420462]
大規模で事前訓練された言語モデルは、既存の言語理解タスクにおいて人間のレベルと超人的精度を達成する。
予測コヒーレンスの新しい尺度による評価システムを提案する。
論文 参考訳(メタデータ) (2021-09-10T15:04:23Z) - TextFlint: Unified Multilingual Robustness Evaluation Toolkit for
Natural Language Processing [73.16475763422446]
NLPタスク(TextFlint)のための多言語ロバスト性評価プラットフォームを提案する。
普遍的なテキスト変換、タスク固有の変換、敵攻撃、サブポピュレーション、およびそれらの組み合わせを取り入れ、包括的な堅牢性分析を提供する。
TextFlintは、モデルの堅牢性の欠点に対処するために、完全な分析レポートとターゲットとした拡張データを生成します。
論文 参考訳(メタデータ) (2021-03-21T17:20:38Z) - Cognitive Representation Learning of Self-Media Online Article Quality [24.084727302752377]
セルフメディアオンライン記事は主にユーザによって作成され、異なるテキストレベルの外観特性とマルチモーダルハイブリッド編集が特徴である。
レイアウト構造, 特徴記述, テキスト意味論と組み合わせて, 共同モデルCoQANを構築した。
また,大規模な実世界評価データセットを構築した。
論文 参考訳(メタデータ) (2020-08-13T02:59:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。