論文の概要: Graded Relevance Scoring of Written Essays with Dense Retrieval
- arxiv url: http://arxiv.org/abs/2405.05200v1
- Date: Wed, 08 May 2024 16:37:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 00:58:50.934871
- Title: Graded Relevance Scoring of Written Essays with Dense Retrieval
- Title(参考訳): ディエンス検索による筆記エッセイの段階的妥当性評価
- Authors: Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed,
- Abstract要約: 本稿では,高密度検索エンコーダを用いたエッセイの妥当性評価手法を提案する。
コントラスト学習で事前学習されたContrieverを活用し,教師付き高密度検索モデルに匹敵する性能を示した。
本手法はタスク固有のシナリオにおいて新しい最先端性能を確立し,クロスタスクシナリオに対する拡張は,そのシナリオに対する最先端モデルに匹敵する性能を示した。
- 参考スコア(独自算出の注目度): 4.021352247826289
- License:
- Abstract: Automated Essay Scoring automates the grading process of essays, providing a great advantage for improving the writing proficiency of students. While holistic essay scoring research is prevalent, a noticeable gap exists in scoring essays for specific quality traits. In this work, we focus on the relevance trait, which measures the ability of the student to stay on-topic throughout the entire essay. We propose a novel approach for graded relevance scoring of written essays that employs dense retrieval encoders. Dense representations of essays at different relevance levels then form clusters in the embeddings space, such that their centroids are potentially separate enough to effectively represent their relevance levels. We hence use the simple 1-Nearest-Neighbor classification over those centroids to determine the relevance level of an unseen essay. As an effective unsupervised dense encoder, we leverage Contriever, which is pre-trained with contrastive learning and demonstrated comparable performance to supervised dense retrieval models. We tested our approach on both task-specific (i.e., training and testing on same task) and cross-task (i.e., testing on unseen task) scenarios using the widely used ASAP++ dataset. Our method establishes a new state-of-the-art performance in the task-specific scenario, while its extension for the cross-task scenario exhibited a performance that is on par with the state-of-the-art model for that scenario. We also analyzed the performance of our approach in a more practical few-shot scenario, showing that it can significantly reduce the labeling cost while sacrificing only 10% of its effectiveness.
- Abstract(参考訳): 自動エッセイ・スコーリングはエッセイの採点プロセスを自動化し、学生の筆記能力を向上させる上で大きな利点となる。
研究を評価する全体論的なエッセイが一般的であるが、特定の品質特性について評価するエッセイには顕著なギャップがある。
本研究は,エッセイ全体を通して,学生がオントピーに留まる能力を測定する,関連性特性に着目したものである。
本稿では,高密度検索エンコーダを用いたエッセイの妥当性評価手法を提案する。
異なる関連レベルにおけるエッセイの繊細な表現は、埋め込み空間におけるクラスタを形成し、そのセンタロイドがそれらの関連レベルを効果的に表すのに十分分離される可能性がある。
したがって、これらのセントロイドに対する単純な1-Nearest-Neighbor分類を用いて、目に見えないエッセイの関連度を決定する。
実効的な教師なし高密度エンコーダとして、コントラスト学習で事前訓練されたContrieverを活用し、教師付き高密度検索モデルに匹敵する性能を示した。
私たちは、広く使われているASAP++データセットを使用して、タスク固有の(同じタスクでトレーニングとテストを行う)とクロスタスク(見えないタスクでテストする)の両方のシナリオでアプローチをテストしました。
本手法はタスク固有のシナリオにおいて新しい最先端性能を確立し,クロスタスクシナリオに対する拡張は,そのシナリオに対する最先端モデルに匹敵する性能を示した。
また、より実践的な数ショットシナリオでアプローチのパフォーマンスを分析し、その効果の10%を犠牲にしてラベル付けコストを大幅に削減できることを示した。
関連論文リスト
- Chain-of-Factors Paper-Reviewer Matching [32.86512592730291]
本稿では,意味的・話題的・引用的要因を協調的に考慮した,論文レビューアマッチングのための統一モデルを提案する。
提案したChain-of-Factorsモデルの有効性を,最先端のペーパー-リビューアマッチング手法と科学的事前学習言語モデルと比較した。
論文 参考訳(メタデータ) (2023-10-23T01:29:18Z) - Prompt- and Trait Relation-aware Cross-prompt Essay Trait Scoring [3.6825890616838066]
自動エッセイスコアリング(AES)は、与えられたプロンプトのために書かれたエッセイをスコアリングすることを目的とする。
既存のAESシステムの多くは、トレーニングで使用されるのと同じプロンプトのエッセイを格付けし、総合的なスコアのみを割り当てている。
本稿では,プロンプトとトレーサの関係を意識したエッセイ・エッセイ・トレーサ・スコアラというロバストなモデルを提案する。
論文 参考訳(メタデータ) (2023-05-26T11:11:19Z) - DeltaScore: Fine-Grained Story Evaluation with Perturbations [69.33536214124878]
DELTASCOREは,ニュアンスストーリーの側面の評価に摂動技術を用いた新しい手法である。
私たちの中心的な命題は、物語が特定の側面(例えば、流感)で興奮する程度は、特定の摂動に対するその感受性の大きさと相関している、と仮定している。
事前学習言語モデルを用いて,前摂動状態と後摂動状態の確率差を計算することにより,アスペクトの品質を測定する。
論文 参考訳(メタデータ) (2023-03-15T23:45:54Z) - Conditional Supervised Contrastive Learning for Fair Text Classification [59.813422435604025]
対照的な学習を通してテキスト分類のための等化オッズとして知られる公平性の概念を満たす学習公正表現について研究する。
具体的には、まず、公正性制約のある学習表現と条件付き教師付きコントラスト目的との間の関係を理論的に分析する。
論文 参考訳(メタデータ) (2022-05-23T17:38:30Z) - Automated Evaluation for Student Argumentative Writing: A Survey [2.9466390764652415]
本稿では,学生論文の自動評価という,未研究領域における研究成果の調査と整理を行う。
全体論的なエッセイ評価に焦点を当てた従来の自動筆記評価とは異なり、この分野はより具体的であり、議論的なエッセイを評価し、特定のフィードバックを提供する。
論文 参考訳(メタデータ) (2022-05-09T07:27:59Z) - Distant finetuning with discourse relations for stance classification [55.131676584455306]
そこで本研究では,定位分類のモデルとして,原文から銀ラベルでデータを抽出し,微調整する手法を提案する。
また,様々な段階において微調整に用いるデータのノイズレベルが減少する3段階のトレーニングフレームワークを提案する。
NLPCC 2021共有タスクArgumentative Text Understanding for AI Debaterでは,26の競合チームの中で1位にランクインした。
論文 参考訳(メタデータ) (2022-04-27T04:24:35Z) - Larger-Context Tagging: When and Why Does It Work? [55.407651696813396]
一般的な戦略として、より大規模なコンテキストトレーニングがいつ、なぜ機能するのかを調査することに注力する。
4つのタグ付けタスクと13のデータセットに基づいてテストベッドを設定しました。
論文 参考訳(メタデータ) (2021-04-09T15:35:30Z) - Many Hands Make Light Work: Using Essay Traits to Automatically Score
Essays [41.851075178681015]
マルチタスク学習(MTL)アプローチを用いて,エッセイを総合的に評価する方法を述べる。
LSTMとBiLSTMの両方を用いて,STL(Single-task Learning)アプローチとの比較を行った。
MTLをベースとしたBiLSTMシステムは,エッセイ特性の評価だけでなく,エッセイ特性の評価にも有効であることがわかった。
論文 参考訳(メタデータ) (2021-02-01T11:31:09Z) - Weakly-Supervised Aspect-Based Sentiment Analysis via Joint
Aspect-Sentiment Topic Embedding [71.2260967797055]
アスペクトベース感情分析のための弱教師付きアプローチを提案する。
We learn sentiment, aspects> joint topic embeddeds in the word embedding space。
次に、ニューラルネットワークを用いて単語レベルの識別情報を一般化する。
論文 参考訳(メタデータ) (2020-10-13T21:33:24Z) - Dynamic Semantic Matching and Aggregation Network for Few-shot Intent
Detection [69.2370349274216]
利用可能な注釈付き発話が不足しているため、インテント検出は困難である。
セマンティック成分はマルチヘッド自己認識によって発話から蒸留される。
本手法はラベル付きインスタンスとラベルなしインスタンスの両方の表現を強化するための総合的なマッチング手段を提供する。
論文 参考訳(メタデータ) (2020-10-06T05:16:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。