論文の概要: Automated Evaluation for Student Argumentative Writing: A Survey
- arxiv url: http://arxiv.org/abs/2205.04083v1
- Date: Mon, 9 May 2022 07:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-10 22:31:16.566222
- Title: Automated Evaluation for Student Argumentative Writing: A Survey
- Title(参考訳): 学生論文作成のための自動評価:調査
- Authors: Xinyu Wang, Yohan Lee, Juneyoung Park
- Abstract要約: 本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
- 参考スコア(独自算出の注目度): 2.9466390764652415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper surveys and organizes research works in an under-studied area,
which we call automated evaluation for student argumentative writing. Unlike
traditional automated writing evaluation that focuses on holistic essay
scoring, this field is more specific: it focuses on evaluating argumentative
essays and offers specific feedback, including argumentation structures,
argument strength trait score, etc. The focused and detailed evaluation is
useful for helping students acquire important argumentation skill. In this
paper we organize existing works around tasks, data and methods. We further
experiment with BERT on representative datasets, aiming to provide up-to-date
baselines for this field.
- Abstract(参考訳): 本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
総合的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的エッセイの評価に焦点を当て、議論構造、議論強度特性スコアなどを含む特定のフィードバックを提供する。
集中的かつ詳細な評価は、学生が重要な議論スキルを得るのを助けるのに役立つ。
本稿では,タスクやデータ,メソッドに関する既存の作業を整理する。
我々はさらに、この分野の最新のベースラインを提供するために、代表データセット上でBERTを実験する。
関連論文リスト
- What Makes a Good Story and How Can We Measure It? A Comprehensive Survey of Story Evaluation [57.550045763103334]
ストーリーを評価することは、他の世代の評価タスクよりも難しい場合があります。
まず、テキスト・トゥ・テキスト、ビジュアル・トゥ・テキスト、テキスト・トゥ・ビジュアルといった既存のストーリーテリングタスクを要約する。
本研究では,これまで開発されてきた,あるいはストーリー評価に応用可能な評価指標を整理する分類法を提案する。
論文 参考訳(メタデータ) (2024-08-26T20:35:42Z) - Which Side Are You On? A Multi-task Dataset for End-to-End Argument Summarisation and Evaluation [13.205613282888676]
本稿では,議論のための議論的エッセイを作成するエンドツーエンドの過程を捉えた議論マイニングデータセットを提案する。
私たちのデータセットには、上記のタスクをサポートするさまざまなプロパティで完全に注釈付けされたクレームの14万の例が含まれています。
ベンチマークでは,各タスクに対する有望な結果を示す一方で,4つのタスクすべてに対するエンドツーエンドのパフォーマンスが著しく低下していることが判明した。
論文 参考訳(メタデータ) (2024-06-05T11:15:45Z) - Graded Relevance Scoring of Written Essays with Dense Retrieval [4.021352247826289]
本稿では,高密度検索エンコーダを用いたエッセイの妥当性評価手法を提案する。
コントラスト学習で事前学習されたContrieverを活用し,教師付き高密度検索モデルに匹敵する性能を示した。
本手法はタスク固有のシナリオにおいて新しい最先端性能を確立し,クロスタスクシナリオに対する拡張は,そのシナリオに対する最先端モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-05-08T16:37:58Z) - A School Student Essay Corpus for Analyzing Interactions of Argumentative Structure and Quality [12.187586364960758]
我々は,2つの年齢集団の学生のエッセイ1,320件のドイツ語コーパスを提示する。
各エッセイは、複数のレベルの粒度の議論的構造と品質のために手動で注釈付けされている。
議論マイニングとエッセイスコアリングのためのベースラインアプローチを提案し,両タスク間の相互作用を分析する。
論文 参考訳(メタデータ) (2024-04-03T07:31:53Z) - A Literature Review of Literature Reviews in Pattern Analysis and Machine Intelligence [58.6354685593418]
本稿では, レビューを評価するために, 記事レベル, フィールド正規化, 大規模言語モデルを用いた書誌指標を提案する。
新たに登場したAI生成の文献レビューも評価されている。
この研究は、文学レビューの現在の課題についての洞察を与え、彼らの開発に向けた今後の方向性を思い起こさせる。
論文 参考訳(メタデータ) (2024-02-20T11:28:50Z) - Empirical Study of Large Language Models as Automated Essay Scoring
Tools in English Composition__Taking TOEFL Independent Writing Task for
Example [25.220438332156114]
本研究では,大規模言語モデルの顕著な代表者であるChatGPTの機能と制約を評価することを目的とする。
本研究はChatGPTを用いて,小さなサンプルサイズであっても,英語エッセイの自動評価を行う。
論文 参考訳(メタデータ) (2024-01-07T07:13:50Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - PART: Pre-trained Authorship Representation Transformer [64.78260098263489]
文書を書く著者は、語彙、レジストリ、句読点、ミススペル、絵文字の使用など、テキスト内での識別情報をインプリントする。
以前の作品では、手作りのフィーチャや分類タスクを使用して著者モデルをトレーニングし、ドメイン外の著者に対するパフォーマンスの低下につながった。
セマンティクスの代わりにtextbfauthorship の埋め込みを学習するために、対照的に訓練されたモデルを提案する。
論文 参考訳(メタデータ) (2022-09-30T11:08:39Z) - Toward Educator-focused Automated Scoring Systems for Reading and
Writing [0.0]
本稿では,データとラベルの可用性,信頼性と拡張性,ドメインスコアリング,プロンプトとソースの多様性,伝達学習といった課題に対処する。
モデルトレーニングコストを増大させることなく、エッセイの長さを重要な特徴として保持する技術を採用している。
論文 参考訳(メタデータ) (2021-12-22T15:44:30Z) - ConvoSumm: Conversation Summarization Benchmark and Improved Abstractive
Summarization with Argument Mining [61.82562838486632]
我々は、さまざまなオンライン会話形式のニュースコメント、ディスカッションフォーラム、コミュニティ質問応答フォーラム、電子メールスレッドに関する4つの新しいデータセットをクラウドソースする。
我々は、データセットの最先端モデルをベンチマークし、データに関連する特徴を分析します。
論文 参考訳(メタデータ) (2021-06-01T22:17:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。