論文の概要: Automatic essay scoring: leveraging Jaccard coefficient and Cosine similaritywith n-gram variation in vector space model approach
- arxiv url: http://arxiv.org/abs/2510.15311v1
- Date: Fri, 17 Oct 2025 04:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.475504
- Title: Automatic essay scoring: leveraging Jaccard coefficient and Cosine similaritywith n-gram variation in vector space model approach
- Title(参考訳): ベクトル空間モデルアプローチにおけるジャカード係数とコサイン類似性を利用した自動エッセイスコア
- Authors: Andharini Dwi Cahyani, Moh. Wildan Fathoni, Fika Hastarita Rachman, Ari Basuki, Salman Amin, Bain Khusnul Khotimah,
- Abstract要約: 本研究では,Jaccard係数とCosine類似度という2つの一般的な類似度指標の有効性について検討した。
システムの性能評価は、人間の成績とシステムによって生成されるスコアの差を測定する根平均二乗誤差(RMSE)を分析して行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Automated essay scoring (AES) is a vital area of research aiming to provide efficient and accurate assessment tools for evaluating written content. This study investigates the effectiveness of two popular similarity metrics, Jaccard coefficient, and Cosine similarity, within the context of vector space models(VSM)employing unigram, bigram, and trigram representations. The data used in this research was obtained from the formative essay of the citizenship education subject in a junior high school. Each essay undergoes preprocessing to extract features using n-gram models, followed by vectorization to transform text data into numerical representations. Then, similarity scores are computed between essays using both Jaccard coefficient and Cosine similarity. The performance of the system is evaluated by analyzing the root mean square error (RMSE), which measures the difference between the scores given by human graders and those generated by the system. The result shows that the Cosine similarity outperformed the Jaccard coefficient. In terms of n-gram, unigrams have lower RMSE compared to bigrams and trigrams.
- Abstract(参考訳): 自動エッセイスコアリング(AES)は、書面コンテンツを評価するための効率的かつ正確な評価ツールを提供することを目的とした研究の重要領域である。
本研究では,ベクトル空間モデル (VSM) のユニグラム, ビッグラム, トリグラム表現の文脈における2つの一般的な類似度指標であるジャカード係数とコサイン類似性の有効性について検討した。
本研究に使用されたデータは,中学校市民教育科の形式的エッセイから得られたものである。
各エッセイは、n-gramモデルを用いて特徴を抽出する前処理を行い、次いでベクトル化してテキストデータを数値表現に変換する。
次に、Jaccard係数とCosine類似度の両方を用いてエッセイ間で類似度スコアを算出する。
システムの性能評価は、人間の成績とシステムによって生成されるスコアの差を測定する根平均二乗誤差(RMSE)を分析して行う。
その結果,コサインの類似性はジャカード係数よりも優れていた。
n-グラムの観点では、ユニグラムはビッグラムやトリグラムに比べてRMSEが低い。
関連論文リスト
- A Top-down Graph-based Tool for Modeling Classical Semantic Maps: A Crosslinguistic Case Study of Supplementary Adverbs [50.982315553104975]
セマンティックマップモデル(SMM)は、言語横断的なインスタンスや形式からネットワークのような概念空間を構築する。
ほとんどのSMMは、ボトムアップ手順を使用して、人間の専門家によって手動で構築される。
本稿では,概念空間とSMMをトップダウンで自動生成するグラフベースの新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-02T12:06:41Z) - Differentiable Optimization of Similarity Scores Between Models and Brains [1.5391321019692434]
線形回帰、CKA(Centered Kernel Alignment)、正規化バーレス類似度(NBS)、角状プロクリスト距離といった類似度は、この類似度を定量化するためにしばしば用いられる。
本稿では、類似度の高いスコアと「良い」スコアを構成するスコアについて調査する新しいツールについて紹介する。
驚くべきことに、高い類似度スコアは、ニューラルデータと整合した方法でタスク関連情報を符号化することを保証していない。
論文 参考訳(メタデータ) (2024-07-09T17:31:47Z) - Standardizing the Measurement of Text Diversity: A Tool and a Comparative Analysis of Scores [28.431348662950743]
テキストの繰り返しを計測し抽出するためのPythonパッケージをリリースする。
ユーザがテキストの繰り返しをインタラクティブに探索するための、多様性に基づくプラットフォームを構築します。
論文 参考訳(メタデータ) (2024-03-01T14:23:12Z) - Revisiting the Evaluation of Image Synthesis with GANs [55.72247435112475]
本研究では, 合成性能の評価に関する実証的研究を行い, 生成モデルの代表としてGAN(Generative Adversarial Network)を用いた。
特に、表現空間におけるデータポイントの表現方法、選択したサンプルを用いた公平距離の計算方法、各集合から使用可能なインスタンス数など、さまざまな要素の詳細な分析を行う。
論文 参考訳(メタデータ) (2023-04-04T17:54:32Z) - Tragic and Comical Networks. Clustering Dramatic Genres According to
Structural Properties [0.0]
ネットワーク研究とドラマ史の合同分野における伝統は、劇のキャラクターネットワークからの解釈を生み出している。
我々の目的は、プレイのよく解釈可能なシンプルな特性に基づいて、類似した構造を持つテキストをクラスタリングできる方法を作ることである。
これらの特徴の発見は,本研究の最も重要な部分であるとともに,テキスト間の類似性を計算するための適切な統計的手順を確立する。
論文 参考訳(メタデータ) (2023-02-16T12:36:16Z) - Towards Similarity-Aware Time-Series Classification [51.2400839966489]
時系列データマイニングの基本課題である時系列分類(TSC)について検討する。
グラフニューラルネットワーク(GNN)を用いて類似情報をモデル化するフレームワークであるSimTSCを提案する。
論文 参考訳(メタデータ) (2022-01-05T02:14:57Z) - Comparative Analysis of N-gram Text Representation on Igbo Text Document
Similarity [0.0]
情報技術の進歩は、オンラインのリソースやニュース記事などのテキスト作成において、Igboの使用を奨励している。
ユークリッド類似度尺度を用いて、2つの単語ベースのn-gramテキスト表現(ユニグラムとビッグラム)モデルで表されるIgboテキスト文書間の類似度を決定する。
論文 参考訳(メタデータ) (2020-04-01T12:24:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。