論文の概要: Detecting Problem Statements in Peer Assessments
- arxiv url: http://arxiv.org/abs/2006.04532v1
- Date: Sat, 30 May 2020 03:03:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-26 17:52:05.373868
- Title: Detecting Problem Statements in Peer Assessments
- Title(参考訳): ピアアセスメントにおける問題文の検出
- Authors: Yunkai Xiao, Gabriel Zingle, Qinjin Jia, Harsh R. Shah, Yi Zhang,
Tianyi Li, Mohsin Karovaliya, Weixiang Zhao, Yang Song, Jie Ji, Ashwin
Balasubramaniam, Harshit Patel, Priyankha Bhalasubbramanian, Vikram Patel,
and Edward F. Gehringer
- Abstract要約: 18,000件以上のレビューコメントは、レビュー担当者によって、作業上の問題を検出するか、検出しないかのどちらかとしてラベル付けされたものです。
従来の機械学習モデルや、GloVeとBERTの埋め込みを使ったニューラルネットワークモデルも展開しています。
- 参考スコア(独自算出の注目度): 12.993637157790143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective peer assessment requires students to be attentive to the
deficiencies in the work they rate. Thus, their reviews should identify
problems. But what ways are there to check that they do? We attempt to automate
the process of deciding whether a review comment detects a problem. We use over
18,000 review comments that were labeled by the reviewees as either detecting
or not detecting a problem with the work. We deploy several traditional
machine-learning models, as well as neural-network models using GloVe and BERT
embeddings. We find that the best performer is the Hierarchical Attention
Network classifier, followed by the Bidirectional Gated Recurrent Units (GRU)
Attention and Capsule model with scores of 93.1% and 90.5% respectively. The
best non-neural network model was the support vector machine with a score of
89.71%. This is followed by the Stochastic Gradient Descent model and the
Logistic Regression model with 89.70% and 88.98%.
- Abstract(参考訳): 効果的なピアアセスメントは、学生が評価する仕事の欠陥に注意する必要がある。
したがって、彼らのレビューは問題を特定するべきである。
しかし、それをチェックするための方法は何か?
レビューコメントが問題を検出するかどうかを判断するプロセスを自動化する。
私たちは18,000以上のレビューコメントを使用し、レビュー担当者が問題を検出するか、あるいは検出しないかをラベル付けしました。
従来の機械学習モデルやGloVeとBERTの埋め込みを使ったニューラルネットワークモデルも展開しています。
もっとも優れたパフォーマーは階層的注意ネットワーク分類器であり、次に、93.1%と90.5%のスコアを持つ双方向ゲーテッド・リカレント・ユニット(GRU)とカプセルモデルである。
最高の非神経ネットワークモデルは89.71%の支持ベクトルマシンであった。
これに続いて確率的勾配降下モデルと89.70%と88.98%のロジスティック回帰モデルがある。
関連論文リスト
- Leveraging Large Language Models for Suicide Detection on Social Media with Limited Labels [3.1399304968349186]
本稿では,テキストベースのソーシャルメディア投稿における自殺的内容を自動的に検出するLarge Language Models (LLMs) について検討する。
我々は,Qwen2-72B-インストラクションの促進とLlama3-8B,Llama3.1-8B,Gemma2-9Bなどの微調整モデルを用いたアンサンブルアプローチを開発した。
実験の結果,アンサンブルモデルでは個々のモデルと比較して5%の精度で検出精度が向上した。
論文 参考訳(メタデータ) (2024-10-06T14:45:01Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - A Large-scale Study on Unsupervised Outlier Model Selection: Evaluating
the Internal Model Evaluation Strategies [12.698430560442123]
異常検出のためのモデル選択における内部モデル評価戦略の適用可能性について検討した。
モデルw.r.tを区別する能力に関する7つの異なる戦略を評価します。
ラベルを使わずに 性能を検知する
論文 参考訳(メタデータ) (2021-04-03T14:56:29Z) - Semi-Supervised Noisy Student Pre-training on EfficientNet Architectures
for Plant Pathology Classification [0.0]
本稿では,単一葉のイメージを用いた病理分類の問題点について検討する。
本稿では、VGG16、ResNet101、DenseNet 161などの標準ベンチマークモデルを用いて、タスクの0.945のスコアを得る。
我々は,半教師付きノイズ学生教育の最先端のアイデアをEfficientNetに導入し,精度と収束率に大きな改善をもたらした。
論文 参考訳(メタデータ) (2020-12-01T08:34:03Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z) - Understanding Classifier Mistakes with Generative Models [88.20470690631372]
ディープニューラルネットワークは教師付き学習タスクに有効であるが、脆弱であることが示されている。
本稿では、生成モデルを利用して、分類器が一般化に失敗するインスタンスを特定し、特徴付ける。
我々のアプローチは、トレーニングセットのクラスラベルに依存しないため、半教師付きでトレーニングされたモデルに適用できる。
論文 参考訳(メタデータ) (2020-10-05T22:13:21Z) - Evaluation Toolkit For Robustness Testing Of Automatic Essay Scoring
Systems [64.4896118325552]
モデル逆算評価スキームと関連するメトリクスを用いて、現状のAESモデルを評価する。
AESモデルは非常に過大評価されていることがわかった。質問の話題に関係のない内容の重い修正(25%まで)でさえ、モデルが生み出すスコアを低下させることはない。
論文 参考訳(メタデータ) (2020-07-14T03:49:43Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。