論文の概要: Feature Engineering vs BERT on Twitter Data
- arxiv url: http://arxiv.org/abs/2210.16168v1
- Date: Fri, 28 Oct 2022 14:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 15:21:55.702790
- Title: Feature Engineering vs BERT on Twitter Data
- Title(参考訳): Twitterデータにおける機能エンジニアリング対BERT
- Authors: Ryiaadh Gani, Lisa Chalaguine
- Abstract要約: 特徴工学とワードベクトルを用いた従来の機械学習モデルと,3つのデータセットへの単語埋め込みを用いた最先端言語モデルBERTを比較した。
BERTモデルの使用は、比較に使用した3つのデータセットのうちの1つについて、時間とコストのトレードオフにのみ価値があると結論付けました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we compare the performances of traditional machine learning
models using feature engineering and word vectors and the state-of-the-art
language model BERT using word embeddings on three datasets. We also consider
the time and cost efficiency of feature engineering compared to BERT. From our
results we conclude that the use of the BERT model was only worth the time and
cost trade-off for one of the three datasets we used for comparison, where the
BERT model significantly outperformed any kind of traditional classifier that
uses feature vectors, instead of embeddings. Using the BERT model for the other
datasets only achieved an increase of 0.03 and 0.05 of accuracy and F1 score
respectively, which could be argued makes its use not worth the time and cost
of GPU.
- Abstract(参考訳): 本稿では,特徴工学とワードベクトルを用いた従来の機械学習モデルと,3つのデータセットへの単語埋め込みを用いた最先端言語モデルBERTを比較した。
また、BERTと比較して機能エンジニアリングの時間とコスト効率についても検討する。
結果から、BERTモデルの使用は、私たちが比較に使用した3つのデータセットのうちの1つに対して、時間とコストのトレードオフにのみ価値があると結論付けました。
他のデータセットにBERTモデルを使用することで、それぞれ0.03と0.05の精度とF1のスコアが向上しただけで、GPUの時間とコストには値しない、と論じることができる。
関連論文リスト
- MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - BiBERT: Accurate Fully Binarized BERT [69.35727280997617]
BiBERTは、パフォーマンスボトルネックを取り除くために、正確に2項化されたBERTである。
提案手法は,FLOPとモデルサイズで56.3回,31.2回節約できる。
論文 参考訳(メタデータ) (2022-03-12T09:46:13Z) - verBERT: Automating Brazilian Case Law Document Multi-label
Categorization Using BERT [1.3198689566654105]
Kollemata Projectのデータを使って、適切なクラスシステムを持つ2つの異なるデータセットを生成しました。
我々は、BERTのマルチクラスおよびマルチラベルバージョンを実装し、生成したデータセットで様々なBERTモデルを微調整した。
論文 参考訳(メタデータ) (2022-03-11T20:01:20Z) - Which Student is Best? A Comprehensive Knowledge Distillation Exam for
Task-Specific BERT Models [3.303435360096988]
タスク固有のBERTベースの教師モデルから様々な学生モデルへの知識蒸留ベンチマークを行う。
インドネシア語でテキスト分類とシークエンスラベリングという2つのタスクでグループ化された12のデータセットについて実験を行った。
実験の結果, トランスフォーマーモデルの普及にもかかわらず, BiLSTM と CNN の学生モデルを用いることで, 性能と計算資源の最良のトレードオフが得られることがわかった。
論文 参考訳(メタデータ) (2022-01-03T10:07:13Z) - Deploying a BERT-based Query-Title Relevance Classifier in a Production
System: a View from the Trenches [3.1219977244201056]
変換器(BERT)モデルによる双方向表現は,多くの自然言語処理(NLP)タスクの性能を大幅に向上させてきた。
BERTを低レイテンシ、高スループットの産業用ユースケースにスケールすることは、その巨大なサイズのために困難である。
BERT Bidirectional Long Short-Term Memory (BertBiLSTM) という名前のコンパクトモデルによるデプロイメントのためのQTR分類器の最適化に成功した。
BertBiLSTMは、上記の実世界の生産作業における精度と効率の観点から、既成のBERTモデルの性能を上回る
論文 参考訳(メタデータ) (2021-08-23T14:28:23Z) - BERT based sentiment analysis: A software engineering perspective [0.9176056742068814]
本稿では、感情分析のためのBERTモデルを分析するための3つの戦略を提案する。
実験結果から, BERTに基づくアンサンブル手法と圧縮BERTモデルにより, 3つのデータセットのF1測定ツールよりも6-12%向上したことがわかった。
論文 参考訳(メタデータ) (2021-06-04T16:28:26Z) - Improving BERT Model Using Contrastive Learning for Biomedical Relation
Extraction [13.354066085659198]
対比学習は、テキストデータの一般的なデータ拡張方法が不足しているため、自然言語処理では広く利用されていない。
本研究では, 対比学習を用いてBERTモデルからのテキスト表現を改善し, 関係抽出を行う手法を検討する。
3つの関係抽出ベンチマークデータセットの実験結果から,本手法がBERTモデル表現を改善し,最新性能を達成できることが示された。
論文 参考訳(メタデータ) (2021-04-28T17:50:24Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - To BERT or Not to BERT: Comparing Task-specific and Task-agnostic
Semi-Supervised Approaches for Sequence Tagging [46.62643525729018]
クロスビュートレーニング(CVT)とタスクに依存しないBERTをドメインやタスクに関連する英語データを含む複数の設定で比較する。
本研究では,一連のタグ付けタスクにおいてBERTと同じような性能を達成し,経済的・環境的影響を低減できることを示す。
論文 参考訳(メタデータ) (2020-10-27T04:03:47Z) - TernaryBERT: Distillation-aware Ultra-low Bit BERT [53.06741585060951]
本稿では,細調整されたBERTモデルの重みを3元化するternaryBERTを提案する。
GLUEベンチマークとSQuADの実験により,提案した TernaryBERT が他のBERT量子化法より優れていることが示された。
論文 参考訳(メタデータ) (2020-09-27T10:17:28Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。