Fugu-MT 論文翻訳(概要): Automatic Essay Scoring in a Brazilian Scenario

論文の概要: Automatic Essay Scoring in a Brazilian Scenario

arxiv url: http://arxiv.org/abs/2401.00095v1
Date: Fri, 29 Dec 2023 23:05:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 18:52:35.258911
Title: Automatic Essay Scoring in a Brazilian Scenario
Title（参考訳）: ブラジルのシナリオにおける自動評価
Authors: Felipe Akio Matsuoka
Abstract要約: 本稿では,ブラジルのExame Nacional do Ensino M'edio(ENEM)のポルトガル語エッセイに合わせた,新しい自動エッセイスコーリング(AES)アルゴリズムを提案する。提案手法は,高度な深層学習技術を活用して,学生エッセイの大量評価における効率性とスケーラビリティを目標とした,人間の評価基準に忠実に整合する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: This paper presents a novel Automatic Essay Scoring (AES) algorithm tailored for the Portuguese-language essays of Brazil's Exame Nacional do Ensino M\'edio (ENEM), addressing the challenges in traditional human grading systems. Our approach leverages advanced deep learning techniques to align closely with human grading criteria, targeting efficiency and scalability in evaluating large volumes of student essays. This research not only responds to the logistical and financial constraints of manual grading in Brazilian educational assessments but also promises to enhance fairness and consistency in scoring, marking a significant step forward in the application of AES in large-scale academic settings.
Abstract（参考訳）: 本稿では,ブラジルのExame Nacional do Ensino M\'edio(ENEM)のポルトガル語エッセイに合わせた,AES(Automatic Essay Scoring)アルゴリズムを提案する。提案手法は,高度な深層学習技術を活用して,学生エッセイの大量評価における効率性とスケーラビリティを目標とした,人間の評価基準に忠実に整合する。この研究はブラジルの教育アセスメントにおける手動採点の物流的および財政的な制約に応えるだけでなく、スコアリングの公平性と一貫性を高めることを約束しており、大規模な学術分野におけるaesの適用において大きな一歩を踏み出した。

関連論文リスト

Automated Generation of Curriculum-Aligned Multiple-Choice Questions for Malaysian Secondary Mathematics Using Generative AI [0.10995326465245928]
本稿では,マレーシアの教育システムにおけるスケーラブルで高品質な教育評価ツールの必要性について論じる。生成AI(GenAI)の可能性を強調しながら、事実の正確性とカリキュラムの整合性を保証するという課題を認識している。
論文参考訳（メタデータ） (2025-08-06T13:30:51Z)
The AI Imperative: Scaling High-Quality Peer Review in Machine Learning [49.87236114682497]
AIによるピアレビューは、緊急の研究とインフラの優先事項になるべきだ、と私たちは主張する。我々は、事実検証の強化、レビュアーのパフォーマンスの指導、品質改善における著者の支援、意思決定におけるAC支援におけるAIの具体的な役割を提案する。
論文参考訳（メタデータ） (2025-06-09T18:37:14Z)
From Struggle (06-2024) to Mastery (02-2025) LLMs Conquer Advanced Algorithm Exams and Pave the Way for Editorial Generation [0.0]
本稿では,大学レベルのアルゴリズム試験において,最先端の大規模言語モデル(LLM)の性能を総合的に評価する。ルーマニア語の試験と、その高品質な英語翻訳の両方で複数のモデルをテストすることで、LLMの問題解決能力、一貫性、多言語のパフォーマンスを分析する。
論文参考訳（メタデータ） (2025-06-05T12:41:20Z)
Monocle: Hybrid Local-Global In-Context Evaluation for Long-Text Generation with Uncertainty-Based Active Learning [63.531262595858]
分数的・対数的アプローチは、総合的な評価タスクを局所的なスコアリングタスクに分割し、続いて最終的なグローバルアセスメントを行う。局所的およびグローバルな評価の両面での性能を高めるために,人間のアノテーションを活用するハイブリッド・イン・コンテキスト・ラーニング・アプローチを導入する。最後に,人間のアノテーションに対するデータサンプルを効率的に選択する不確実性に基づく能動学習アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-05-26T16:39:41Z)
Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文参考訳（メタデータ） (2025-03-21T17:59:55Z)
ReviewEval: An Evaluation Framework for AI-Generated Reviews [9.35023998408983]
本研究は、AI生成レビューのための総合的な評価フレームワークを紹介する。人間の評価との整合性を測定し、事実の正確性を検証し、分析的な深さを評価し、実行可能な洞察を識別する。我々のフレームワークは、AIベースのレビューシステムを評価するための標準化されたメトリクスを確立する。
論文参考訳（メタデータ） (2025-02-17T12:22:11Z)
NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。 WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文参考訳（メタデータ） (2024-11-02T15:22:26Z)
An Automatic and Cost-Efficient Peer-Review Framework for Language Generation Evaluation [29.81362106367831]
既存の評価手法は、しばしば高いコスト、限られたテスト形式、人間の参照の必要性、体系的な評価バイアスに悩まされる。人間のアノテーションに依存する以前の研究とは対照的に、Auto-PREはそれら固有の特性に基づいて自動的に評価者を選択する。実験結果から,我々のAuto-PREは最先端の性能を低コストで達成できることが示された。
論文参考訳（メタデータ） (2024-10-16T06:06:06Z)
What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文参考訳（メタデータ） (2024-08-26T20:35:42Z)
A Comparative Study of Quality Evaluation Methods for Text Summarization [0.5512295869673147]
本稿では,大規模言語モデル(LLM)に基づくテキスト要約評価手法を提案する。以上の結果から,LLMの評価は人間の評価と密接に一致しているが,ROUGE-2,BERTScore,SummaCなどの広く使用されている自動測定値には一貫性がない。
論文参考訳（メタデータ） (2024-06-30T16:12:37Z)
Disce aut Deficere: Evaluating LLMs Proficiency on the INVALSI Italian Benchmark [12.729687989535359]
大規模言語モデル(LLM)を英語以外の言語で評価することは、その言語的汎用性、文化的妥当性、そして多様なグローバルな文脈における適用性を保証するために不可欠である。 InVALSIテストは、イタリア全土の教育能力を測定するために設計された、確立された評価セットである。
論文参考訳（メタデータ） (2024-06-25T13:20:08Z)
RelevAI-Reviewer: A Benchmark on AI Reviewers for Survey Paper Relevance [0.8089605035945486]
本稿では,調査論文レビューの課題を分類問題として概念化するシステムであるRelevAI-Reviewerを提案する。 25,164のインスタンスからなる新しいデータセットを導入する。各インスタンスには1つのプロンプトと4つの候補論文があり、それぞれがプロンプトに関連している。我々は,各論文の関連性を判断し,最も関連性の高い論文を識別できる機械学習(ML)モデルを開発した。
論文参考訳（メタデータ） (2024-06-13T06:42:32Z)
Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文参考訳（メタデータ） (2024-01-13T15:59:09Z)
Little Giants: Exploring the Potential of Small LLMs as Evaluation Metrics in Summarization in the Eval4NLP 2023 Shared Task [53.163534619649866]
本稿では,大規模言語モデルに品質評価の課題を扱えるように,プロンプトベースの手法の有効性を評価することに焦点を当てる。我々は,標準的なプロンプト,アノテータ命令によって通知されるプロンプト,イノベーティブなチェーン・オブ・シークレットプロンプトなど,様々なプロンプト技術を用いて,系統的な実験を行った。我々の研究は、これらのアプローチを"小さな"オープンソースモデル(orca_mini_v3_7B)を使って組み合わせることで、競争結果が得られることを示した。
論文参考訳（メタデータ） (2023-11-01T17:44:35Z)
Rethinking Word-Level Auto-Completion in Computer-Aided Translation [76.34184928621477]
Word-Level Auto-Completion (WLAC) はコンピュータ翻訳において重要な役割を果たす。それは、人間の翻訳者に対して単語レベルの自動補完提案を提供することを目的としている。我々は、この質問に答えるために測定可能な基準を導入し、既存のWLACモデルがこの基準を満たしていないことを発見する。評価基準の遵守を促進することによってWLAC性能を向上させる効果的な手法を提案する。
論文参考訳（メタデータ） (2023-10-23T03:11:46Z)
Investigating Fairness Disparities in Peer Review: A Language Model Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文参考訳（メタデータ） (2022-11-07T16:19:42Z)
Prompt Agnostic Essay Scorer: A Domain Generalization Approach to Cross-prompt Automated Essay Scoring [61.21967763569547]
クロスプロンプト自動エッセイスコア(英語: Cross-prompt automated essay score, AES)は、非ターゲットプロンプトエッセイを使用して目標プロンプトエッセイにスコアを付与するシステムである。本稿では, クロスプロンプトAESのためのPAES(Prompt Agnostic Essay Scorer)を提案する。本手法は,学習中にラベル付きあるいは未ラベルのターゲット・プロンプトデータにアクセスする必要がなく,単一段階のアプローチである。
論文参考訳（メタデータ） (2020-08-04T10:17:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。