論文の概要: ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer
Assessments
- arxiv url: http://arxiv.org/abs/2110.03895v1
- Date: Fri, 8 Oct 2021 05:13:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 00:57:34.914906
- Title: ALL-IN-ONE: Multi-Task Learning BERT models for Evaluating Peer
Assessments
- Title(参考訳): ALL-IN-ONE: ピアアセスメント評価のためのマルチタスク学習BERTモデル
- Authors: Qinjin Jia, Jialin Cui, Yunkai Xiao, Chengyuan Liu, Parvez Rashid,
Edward F. Gehringer
- Abstract要約: 本稿では、最先端の事前学習言語表現モデルBERTとDistilBERTを利用して、ピアレビューコメントを評価するための2つのMTLモデルを提案する。
以上の結果から,BERTベースのモデルでは,単一特徴の検出タスクにおいて,F1スコアの約6%が従来のGloVe方式よりも大幅に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 2.544539499281093
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Peer assessment has been widely applied across diverse academic fields over
the last few decades and has demonstrated its effectiveness. However, the
advantages of peer assessment can only be achieved with high-quality peer
reviews. Previous studies have found that high-quality review comments usually
comprise several features (e.g., contain suggestions, mention problems, use a
positive tone). Thus, researchers have attempted to evaluate peer-review
comments by detecting different features using various machine learning and
deep learning models. However, there is no single study that investigates using
a multi-task learning (MTL) model to detect multiple features simultaneously.
This paper presents two MTL models for evaluating peer-review comments by
leveraging the state-of-the-art pre-trained language representation models BERT
and DistilBERT. Our results demonstrate that BERT-based models significantly
outperform previous GloVe-based methods by around 6% in F1-score on tasks of
detecting a single feature, and MTL further improves performance while reducing
model size.
- Abstract(参考訳): 過去数十年間、ピアアセスメントは様々な学術分野に広く適用され、その効果を実証してきた。
しかし、ピアアセスメントの利点は、高品質なピアレビューでのみ達成できる。
従来の研究では、高品質なレビューコメントは通常いくつかの特徴(例えば、提案、問題への言及、肯定的なトーンの使用など)から構成されている。
そこで研究者たちは、さまざまな機械学習とディープラーニングモデルを用いて、さまざまな特徴を検出することで、ピアレビューコメントの評価を試みた。
しかし,マルチタスク学習(MTL)モデルを用いて複数の特徴を同時に検出する研究はひとつもない。
本稿では、最先端の事前学習言語表現モデルBERTとDistilBERTを利用して、ピアレビューコメントを評価するための2つのMTLモデルを提案する。
以上の結果から,BERTベースのモデルでは,単一特徴の検出タスクにおいて,F1スコアの約6%が従来のGloVe方式よりも大幅に優れており,MTLはモデルサイズを削減しつつ,さらなる性能向上を図っている。
関連論文リスト
- Multi-Perspective Stance Detection [2.8073184910275293]
マルチパースペクティブアプローチは、単一ラベルを使用するベースラインよりも優れた分類性能が得られる。
これは、より包括的な視点を意識したAIモデルを設計することが、責任と倫理的なAIを実装するための重要な第一歩であるだけでなく、従来のアプローチよりも優れた結果を達成することも必要である。
論文 参考訳(メタデータ) (2024-11-13T16:30:41Z) - Interactive DualChecker for Mitigating Hallucinations in Distilling Large Language Models [7.632217365130212]
大規模言語モデル(LLM)は、さまざまな機械学習(ML)タスクにまたがる例外的な機能を示している。
これらのモデルは、特に不完全な知識を持つ領域において幻覚を生み出すことができる。
幻覚を緩和し,教師モデルと学生モデルの両方のパフォーマンスを向上させるために設計された,革新的なフレームワークであるDualCheckerを紹介する。
論文 参考訳(メタデータ) (2024-08-22T12:04:04Z) - Opinion-Unaware Blind Image Quality Assessment using Multi-Scale Deep Feature Statistics [54.08757792080732]
我々は,事前学習された視覚モデルからの深い特徴を統計的解析モデルと統合して,意見認識のないBIQA(OU-BIQA)を実現することを提案する。
提案モデルは,最先端のBIQAモデルと比較して,人間の視覚的知覚との整合性に優れる。
論文 参考訳(メタデータ) (2024-05-29T06:09:34Z) - Efficient argument classification with compact language models and ChatGPT-4 refinements [0.0]
本稿では,議論マイニングにおける深層学習モデルの比較研究について述べる。
本稿では,BERTアーキテクチャに基づくアンサンブルモデルと,微調整モデルとしてのChatGPT-4について述べる。
以上の結果から,BERT+ChatGPT-4は他のTransformerベースモデルやLSTMベースモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-03-20T16:24:10Z) - Leveraging Biases in Large Language Models: "bias-kNN'' for Effective
Few-Shot Learning [36.739829839357995]
本研究では, バイアスkNN'という新しい手法を紹介する。
このアプローチはバイアスのある出力を生かし、それらをkNNの主要な特徴として利用し、金のラベルを補足する。
多様なドメインテキスト分類データセットと異なるGPT-2モデルサイズにまたがる包括的評価は、バイアス-kNN'法の適用性と有効性を示している。
論文 参考訳(メタデータ) (2024-01-18T08:05:45Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Investigating Fairness Disparities in Peer Review: A Language Model
Enhanced Approach [77.61131357420201]
我々は、大規模言語モデル(LM)の助けを借りて、ピアレビューにおける公平性格差の徹底した厳密な研究を行う。
我々は、2017年から現在までのICLR(International Conference on Learning Representations)カンファレンスで、包括的なリレーショナルデータベースを収集、組み立て、維持しています。
我々は、著作者性別、地理、著作者、機関的名声など、興味のある複数の保護属性に対する公平性の違いを仮定し、研究する。
論文 参考訳(メタデータ) (2022-11-07T16:19:42Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - Sparse MoEs meet Efficient Ensembles [49.313497379189315]
このようなモデルの2つの一般的なクラス、すなわちニューラルネットワークのアンサンブルと専門家のスパースミックス(スパースMoE)の相互作用について研究する。
Efficient Ensemble of Experts (E$3$)は、両モデルのクラスを最大限に活用するスケーラブルでシンプルなMoEのアンサンブルであり、深いアンサンブルよりも最大45%少ないFLOPを使用する。
論文 参考訳(メタデータ) (2021-10-07T11:58:35Z) - Few-shot Action Recognition with Prototype-centered Attentive Learning [88.10852114988829]
2つの新しい構成要素からなるプロトタイプ中心型注意学習(pal)モデル。
まず,従来のクエリ中心学習目標を補完するために,プロトタイプ中心のコントラスト学習損失を導入する。
第二に、PALは注意深いハイブリッド学習機構を統合しており、アウトレーヤの負の影響を最小限に抑えることができる。
論文 参考訳(メタデータ) (2021-01-20T11:48:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。