論文の概要: Automatic Essay Scoring in a Brazilian Scenario
- arxiv url: http://arxiv.org/abs/2401.00095v1
- Date: Fri, 29 Dec 2023 23:05:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 18:52:35.258911
- Title: Automatic Essay Scoring in a Brazilian Scenario
- Title(参考訳): ブラジルのシナリオにおける自動評価
- Authors: Felipe Akio Matsuoka
- Abstract要約: 本稿では,ブラジルのExame Nacional do Ensino M'edio(ENEM)のポルトガル語エッセイに合わせた,新しい自動エッセイスコーリング(AES)アルゴリズムを提案する。
提案手法は,高度な深層学習技術を活用して,学生エッセイの大量評価における効率性とスケーラビリティを目標とした,人間の評価基準に忠実に整合する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper presents a novel Automatic Essay Scoring (AES) algorithm tailored
for the Portuguese-language essays of Brazil's Exame Nacional do Ensino M\'edio
(ENEM), addressing the challenges in traditional human grading systems. Our
approach leverages advanced deep learning techniques to align closely with
human grading criteria, targeting efficiency and scalability in evaluating
large volumes of student essays. This research not only responds to the
logistical and financial constraints of manual grading in Brazilian educational
assessments but also promises to enhance fairness and consistency in scoring,
marking a significant step forward in the application of AES in large-scale
academic settings.
- Abstract(参考訳): 本稿では,ブラジルのExame Nacional do Ensino M\'edio(ENEM)のポルトガル語エッセイに合わせた,AES(Automatic Essay Scoring)アルゴリズムを提案する。
提案手法は,高度な深層学習技術を活用して,学生エッセイの大量評価における効率性とスケーラビリティを目標とした,人間の評価基準に忠実に整合する。
この研究はブラジルの教育アセスメントにおける手動採点の物流的および財政的な制約に応えるだけでなく、スコアリングの公平性と一貫性を高めることを約束しており、大規模な学術分野におけるaesの適用において大きな一歩を踏み出した。
関連論文リスト
- Exploring Precision and Recall to assess the quality and diversity of
LLMs [86.33540332994781]
本稿では,Llama-2やMistralといった大規模言語モデル(LLM)の新たな評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative
Artificial Intelligence [5.454656183053655]
我々は23の最先端のLarge Language Modelsベンチマークを批判的に評価する。
私たちの研究は、偏見、真の推論を測ることの難しさなど、重大な制限を発見しました。
静的ベンチマークから動的行動プロファイリングへの進化を提唱する。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - Little Giants: Exploring the Potential of Small LLMs as Evaluation
Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。
我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。
我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文 参考訳(メタデータ) (2023-11-01T17:44:35Z) - Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。
それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。
我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。
評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T03:11:46Z) - Automatic assessment of text-based responses in post-secondary
education: A systematic review [0.0]
教育におけるテキストベースの反応の迅速な評価とフィードバックの自動化には大きな可能性がある。
近年,テキストによる自動評価システムがどのように開発され,教育に応用されているかを理解するために,三つの研究課題が検討されている。
この体系的なレビューは、テキストベースのアセスメントシステムの最近の教育応用の概要を提供する。
論文 参考訳(メタデータ) (2023-08-30T17:16:45Z) - Evaluating the Generation Capabilities of Large Chinese Language Models [27.598864484231477]
本稿では,CG-Evalについて紹介する。
学術分野にまたがる大規模な中国語モデルの生成能力を評価する。
Gscoreは、参照標準に対するモデルのテキスト生成の品質測定を自動化する。
論文 参考訳(メタデータ) (2023-08-09T09:22:56Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Evaluating the Evaluation Metrics for Style Transfer: A Case Study in
Multilingual Formality Transfer [11.259786293913606]
この研究は、スタイル転送(ST)におけるメトリクスの多言語的評価としては初めてである。
フォーマルなスタイル転送のタスクにおいて, 先行ST自動測定値の評価を行った。
人間の判断とよく相関し、言語間で堅牢なモデルをいくつか特定する。
論文 参考訳(メタデータ) (2021-10-20T17:21:09Z) - Translation Quality Assessment: A Brief Survey on Manual and Automatic
Methods [9.210509295803243]
手動判定基準と自動評価指標の両方を含む、翻訳品質評価(TQA)手法のハイレベルで簡潔な調査を紹介します。
翻訳モデル研究者と品質評価研究者の両方にとって、この研究が資産になることを願っています。
論文 参考訳(メタデータ) (2021-05-05T18:28:10Z) - Prompt Agnostic Essay Scorer: A Domain Generalization Approach to
Cross-prompt Automated Essay Scoring [61.21967763569547]
クロスプロンプト自動エッセイスコア(英語: Cross-prompt automated essay score, AES)は、非ターゲットプロンプトエッセイを使用して目標プロンプトエッセイにスコアを付与するシステムである。
本稿では, クロスプロンプトAESのためのPAES(Prompt Agnostic Essay Scorer)を提案する。
本手法は,学習中にラベル付きあるいは未ラベルのターゲット・プロンプトデータにアクセスする必要がなく,単一段階のアプローチである。
論文 参考訳(メタデータ) (2020-08-04T10:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。