論文の概要: Enhancing Essay Cohesion Assessment: A Novel Item Response Theory Approach
- arxiv url: http://arxiv.org/abs/2507.08487v1
- Date: Fri, 11 Jul 2025 11:05:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-14 18:03:54.330333
- Title: Enhancing Essay Cohesion Assessment: A Novel Item Response Theory Approach
- Title(参考訳): Essay Cohesionアセスメントの強化:新しい項目応答理論アプローチ
- Authors: Bruno Alexandre Rosa, Hilário Oliveira, Luiz Rodrigues, Eduardo Araujo Oliveira, Rafael Ferreira Mello,
- Abstract要約: 本研究では,項目応答理論に基づく凝集点予測手法の提案と解析を行う。
提案手法は,従来の機械学習モデルとアンサンブル手法を,いくつかの評価指標で比較した。
- 参考スコア(独自算出の注目度): 0.7845950813414773
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Essays are considered a valuable mechanism for evaluating learning outcomes in writing. Textual cohesion is an essential characteristic of a text, as it facilitates the establishment of meaning between its parts. Automatically scoring cohesion in essays presents a challenge in the field of educational artificial intelligence. The machine learning algorithms used to evaluate texts generally do not consider the individual characteristics of the instances that comprise the analysed corpus. In this meaning, item response theory can be adapted to the context of machine learning, characterising the ability, difficulty and discrimination of the models used. This work proposes and analyses the performance of a cohesion score prediction approach based on item response theory to adjust the scores generated by machine learning models. In this study, the corpus selected for the experiments consisted of the extended Essay-BR, which includes 6,563 essays in the style of the National High School Exam (ENEM), and the Brazilian Portuguese Narrative Essays, comprising 1,235 essays written by 5th to 9th grade students from public schools. We extracted 325 linguistic features and treated the problem as a machine learning regression task. The experimental results indicate that the proposed approach outperforms conventional machine learning models and ensemble methods in several evaluation metrics. This research explores a potential approach for improving the automatic evaluation of cohesion in educational essays.
- Abstract(参考訳): 評価は、執筆における学習成果を評価するための貴重なメカニズムと考えられている。
テキスト結束は、その部分間の意味の確立を促進するため、テキストの本質的な特徴である。
エッセイにおける凝集の自動スコアリングは、人工知能の分野における課題である。
テキストを評価するために使用される機械学習アルゴリズムは、一般的に、分析されたコーパスを構成するインスタンスの個々の特性を考慮していない。
この意味において、アイテム応答理論は機械学習の文脈に適応し、使用するモデルの能力、難易度、識別を特徴付けることができる。
本研究では,項目応答理論に基づく凝集点予測手法の提案と解析を行い,機械学習モデルによるスコアの調整を行う。
本研究では,5年生から9年生のブラジル・ポルトガル・ナララティブ・エッセイ(Narrative Essays)と6,563人のエッセイ(en:Essay-BR)と5年生から9年生のエッセイ(en:Essay-BR)の2,1235人のエッセイ(en:Essay-BR)からなる。
我々は325の言語的特徴を抽出し,その問題を機械学習回帰タスクとして扱った。
実験結果から,提案手法は従来の機械学習モデルやアンサンブル手法よりもいくつかの評価指標で優れていたことが示唆された。
本研究は,エッセイにおける凝集の自動評価を改善するための潜在的アプローチを探るものである。
関連論文リスト
- Machine vs Machine: Using AI to Tackle Generative AI Threats in Assessment [0.0]
本稿では、高等教育評価において、生成人工知能(AI)がもたらす課題に対処するための理論的枠組みを提案する。
GPT-4、Claude、Llamaのような大規模な言語モデルは、洗練された学術コンテンツを作成する能力をますます示している。
調査によると、学生の74-92%が学術目的でこれらのツールを実験している。
論文 参考訳(メタデータ) (2025-05-31T22:29:43Z) - NLP and Education: using semantic similarity to evaluate filled gaps in a large-scale Cloze test in the classroom [0.0]
ブラジルの学生を対象にしたクローゼテストのデータを用いて,ブラジルポルトガル語(PT-BR)のWEモデルを用いて意味的類似度を測定した。
WEモデルのスコアと審査員の評価を比較した結果,GloVeが最も効果的なモデルであることが判明した。
論文 参考訳(メタデータ) (2024-11-02T15:22:26Z) - STRICTA: Structured Reasoning in Critical Text Assessment for Peer Review and Beyond [68.47402386668846]
本研究では,テキストアセスメントをステップワイド推論プロセスとしてモデル化するために,Structured Reasoning In Critical Text Assessment (STRICTA)を導入する。
STRICTAは、因果性理論に基づく相互接続推論ステップのグラフに評価を分解する。
約40人のバイオメディカル専門家が20以上の論文について4000以上の推論ステップのデータセットにSTRICTAを適用した。
論文 参考訳(メタデータ) (2024-09-09T06:55:37Z) - ElicitationGPT: Text Elicitation Mechanisms via Language Models [12.945581341789431]
本稿では,大規模言語モデルに対するドメイン知識のないクエリを用いて,提案したテキストを真理テキストに対してスコアリングする機構について述べる。
ピアグレーディングデータセットからのピアレビューと、ピアレビューのマニュアルインストラクタースコアとの比較により、経験的評価を行う。
論文 参考訳(メタデータ) (2024-06-13T17:49:10Z) - Multi-Dimensional Evaluation of Text Summarization with In-Context
Learning [79.02280189976562]
本稿では,テキスト内学習を用いた多次元評価器として,大規模言語モデルの有効性について検討する。
実験の結果,テキスト要約作業において,文脈内学習に基づく評価手法が学習評価フレームワークと競合していることが判明した。
次に、テキスト内サンプルの選択や数などの要因がパフォーマンスに与える影響を分析する。
論文 参考訳(メタデータ) (2023-06-01T23:27:49Z) - Large Language Models are Diverse Role-Players for Summarization
Evaluation [82.31575622685902]
文書要約の品質は、文法や正しさといった客観的な基準と、情報性、簡潔さ、魅力といった主観的な基準で人間の注釈者によって評価することができる。
BLUE/ROUGEのような自動評価手法のほとんどは、上記の次元を適切に捉えることができないかもしれない。
目的と主観の両面から生成されたテキストと参照テキストを比較し,総合的な評価フレームワークを提供するLLMに基づく新しい評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-27T10:40:59Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - Analyzing and Evaluating Faithfulness in Dialogue Summarization [67.07947198421421]
まず,対話要約の忠実度に関するきめ細かな人間の分析を行い,生成した要約の35%以上がソース対話に忠実に一致していないことを観察する。
そこで本研究では,ルールベース変換により生成した複数選択質問を用いたモデルレベルの忠実度評価手法を提案する。
論文 参考訳(メタデータ) (2022-10-21T07:22:43Z) - Text similarity analysis for evaluation of descriptive answers [0.0]
本論文では, テキスト解析に基づく自動評価手法を提案する。
このアーキテクチャでは、検査者は与えられた質問の集合に対するサンプル回答シートを作成する。
テキスト要約、テキスト意味論、キーワード要約の概念を使用して、各回答の最終スコアを計算します。
論文 参考訳(メタデータ) (2021-05-06T20:19:58Z) - Salience Estimation with Multi-Attention Learning for Abstractive Text
Summarization [86.45110800123216]
テキスト要約のタスクでは、単語、フレーズ、文のサリエンス推定が重要な要素である。
本稿では,サラレンス推定のための2つの新しい注目学習要素を含むマルチアテンション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-04-07T02:38:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。