論文の概要: ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer
Assessments
- arxiv url: http://arxiv.org/abs/2110.03895v1
- Date: Fri, 8 Oct 2021 05:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 00:57:34.914906
- Title: ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer
Assessments
- Title(参考訳): ALL-IN-ONE: ピアアセスメント評価のためのマルチタスク学習BERTモデル
- Authors: Qinjin Jia, Jialin Cui, Yunkai Xiao, Chengyuan Liu, Parvez Rashid,
Edward F. Gehringer
- Abstract要約: 本稿では、最先端の事前学習言語表現モデルBERTとDistilBERTを利用して、ピアレビューコメントを評価するための2つのMTLモデルを提案する。
以上の結果から,BERTベースのモデルでは,単一特徴の検出タスクにおいて,F1スコアの約6%が従来のGloVe方式よりも大幅に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.544539499281093
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Peer assessment has been widely applied across diverse academic fields over
the last few decades and has demonstrated its effectiveness. However, the
advantages of peer assessment can only be achieved with high-quality peer
reviews. Previous studies have found that high-quality review comments usually
comprise several features (e.g., contain suggestions, mention problems, use a
positive tone). Thus, researchers have attempted to evaluate peer-review
comments by detecting different features using various machine learning and
deep learning models. However, there is no single study that investigates using
a multi-task learning (MTL) model to detect multiple features simultaneously.
This paper presents two MTL models for evaluating peer-review comments by
leveraging the state-of-the-art pre-trained language representation models BERT
and DistilBERT. Our results demonstrate that BERT-based models significantly
outperform previous GloVe-based methods by around 6% in F1-score on tasks of
detecting a single feature, and MTL further improves performance while reducing
model size.
- Abstract(参考訳): 過去数十年間、ピアアセスメントは様々な学術分野に広く適用され、その効果を実証してきた。
しかし、ピアアセスメントの利点は、高品質なピアレビューでのみ達成できる。
従来の研究では、高品質なレビューコメントは通常いくつかの特徴(例えば、提案、問題への言及、肯定的なトーンの使用など)から構成されている。
そこで研究者たちは、さまざまな機械学習とディープラーニングモデルを用いて、さまざまな特徴を検出することで、ピアレビューコメントの評価を試みた。
しかし,マルチタスク学習(MTL)モデルを用いて複数の特徴を同時に検出する研究はひとつもない。
本稿では、最先端の事前学習言語表現モデルBERTとDistilBERTを利用して、ピアレビューコメントを評価するための2つのMTLモデルを提案する。
以上の結果から,BERTベースのモデルでは,単一特徴の検出タスクにおいて,F1スコアの約6%が従来のGloVe方式よりも大幅に優れており,MTLはモデルサイズを削減しつつ,さらなる性能向上を図っている。
関連論文リスト
- Leveraging Biases in Large Language Models: "bias-kNN'' for Effective
Few-Shot Learning [36.739829839357995]
本研究では, バイアスkNN'という新しい手法を紹介する。
このアプローチはバイアスのある出力を生かし、それらをkNNの主要な特徴として利用し、金のラベルを補足する。
多様なドメインテキスト分類データセットと異なるGPT-2モデルサイズにまたがる包括的評価は、バイアス-kNN'法の適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-01-18T08:05:45Z) - Ensemble knowledge distillation of self-supervised speech models [84.69577440755457]
蒸留自己監督モデルは近年、競争性能と効率性を示している。
We performed Ensemble Knowledge Distillation (EKD) on various self-supervised speech model, HuBERT, RobustHuBERT, WavLM。
提案手法は,4つの下流音声処理タスクにおける蒸留モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-02-24T17:15:39Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - A Unified Neural Network Model for Readability Assessment with Feature
Projection and Length-Balanced Loss [17.213602354715956]
本稿では,可読性評価のための特徴投影と長さバランス損失を考慮したBERTモデルを提案する。
本モデルは,2つの英語ベンチマークデータセットと1つの中国語教科書データセットを用いて,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-19T05:33:27Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z) - Learning by Semantic Similarity Makes Abstractive Summarization Better [13.324006587838522]
近年のLM, BART, およびベンチマークデータセットCNN/DMの参照要約を比較した。
興味深いことに、モデル生成サマリーは参照サマリーと比較して高いスコアを受け取る。
論文 参考訳(メタデータ) (2020-02-18T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。