論文の概要: Comparing BERT against traditional machine learning text classification
- arxiv url: http://arxiv.org/abs/2005.13012v2
- Date: Tue, 12 Jan 2021 15:48:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-28 23:22:17.048202
- Title: Comparing BERT against traditional machine learning text classification
- Title(参考訳): BERTと従来の機械学習テキスト分類の比較
- Authors: Santiago Gonz\'alez-Carvajal and Eduardo C. Garrido-Merch\'an
- Abstract要約: BERTモデルは近年、最先端の機械学習モデルとして人気を博している。
本研究の目的は,NLPタスクのデフォルトとしてBERTの使用を支持するか拒否する経験的エビデンスを追加することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The BERT model has arisen as a popular state-of-the-art machine learning
model in the recent years that is able to cope with multiple NLP tasks such as
supervised text classification without human supervision. Its flexibility to
cope with any type of corpus delivering great results has make this approach
very popular not only in academia but also in the industry. Although, there are
lots of different approaches that have been used throughout the years with
success. In this work, we first present BERT and include a little review on
classical NLP approaches. Then, we empirically test with a suite of experiments
dealing different scenarios the behaviour of BERT against the traditional
TF-IDF vocabulary fed to machine learning algorithms. Our purpose of this work
is to add empirical evidence to support or refuse the use of BERT as a default
on NLP tasks. Experiments show the superiority of BERT and its independence of
features of the NLP problem such as the language of the text adding empirical
evidence to use BERT as a default technique to be used in NLP problems.
- Abstract(参考訳): 近年、BERTモデルは、人間の監督なしに教師付きテキスト分類などの複数のNLPタスクに対処できる、最先端の機械学習モデルとして人気を博している。
優れた成果をもたらすあらゆるタイプのコーパスに対処する柔軟性は、このアプローチをアカデミックだけでなく、業界でも非常に人気があります。
しかし、成功して何年にもわたって多くの異なるアプローチが使われてきた。
本研究では,BERTを初めて紹介し,古典的NLPアプローチについて概説する。
そして,従来のTF-IDFボキャブラリに対するBERTの振る舞いを機械学習アルゴリズムに入力する,さまざまなシナリオを扱う一連の実験を経験的にテストした。
本研究の目的は,NLPタスクのデフォルトとしてBERTの使用を支持するか拒否する経験的証拠を追加することである。
実験では、BERTの優位性と、NLP問題で使用されるデフォルト技術としてBERTを使用する経験的証拠を付加するテキスト言語のような、NLP問題の特徴の独立性を示す。
関連論文リスト
- Can BERT Refrain from Forgetting on Sequential Tasks? A Probing Study [68.75670223005716]
BERTのような事前学習型言語モデルでは,メモリリプレイが少なくても,逐次学習が可能であることが判明した。
実験の結果,BERT は従来学習したタスクに対して,極めて疎らなリプレイや,さらにはリプレイを行なわずに,長期間にわたって高品質な表現を生成できることが判明した。
論文 参考訳(メタデータ) (2023-03-02T09:03:43Z) - The Topological BERT: Transforming Attention into Topology for Natural
Language Processing [0.0]
本稿では,トポロジカルデータ解析を用いたテキスト分類器を提案する。
我々は、その分類器への唯一の入力として、BERTのアテンションマップをアテンショングラフに変換する。
このモデルは、スパムとハムメッセージの区別、文が文法的に正しいかどうかの認識、あるいは映画レビューを否定的あるいは肯定的な評価といったタスクを解くことができる。
論文 参考訳(メタデータ) (2022-06-30T11:25:31Z) - Prompt Tuning for Discriminative Pre-trained Language Models [96.04765512463415]
最近の研究は、自然言語処理(NLP)タスクに事前訓練言語モデル(PLM)を刺激する際の迅速なチューニングの有望な結果を示している。
ELECTRAのような差別的なPLMが、いかに効果的に迅速なチューニングが可能かは、まだ不明である。
DPTは,NLPタスクを識別言語モデリング問題に書き換える,識別型PLMの最初のプロンプトチューニングフレームワークである。
論文 参考訳(メタデータ) (2022-05-23T10:11:50Z) - On the Use of BERT for Automated Essay Scoring: Joint Learning of
Multi-Scale Essay Representation [12.896747108919968]
本稿では,BERTの多人数エッセイ表現について紹介する。
実験結果から,本手法は多スケールエッセイ表現の共用学習から大きな恩恵を受けることが明らかとなった。
マルチスケールエッセイ表現もCommonLit Readability Prizeデータセットによく似ています。
論文 参考訳(メタデータ) (2022-05-08T10:36:54Z) - BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives [0.0]
BERTは、大きな言語モデルで伝達学習を可能にすることで、NLP分野に革命をもたらした。
本稿では、BERT出力層が提供する異なる埋め込みと、多言語モデルの代わりに言語固有の使用について、よりよく対処する方法について研究する。
論文 参考訳(メタデータ) (2022-01-10T15:05:05Z) - Comparative Analysis of Machine Learning and Deep Learning Algorithms
for Detection of Online Hate Speech [5.543220407902113]
機械学習を用いてヘイトスピーチを分類する試みはいくつかあるが、最先端のモデルは実用的な応用には不十分である。
本稿では,様々な埋め込みから従来のNLPアルゴリズムまで,さまざまな特徴工学手法について検討する。
BERTをベースとした埋め込みは、この問題に最も有用な機能を提供し、実用的な堅牢なモデルにできる能力を持っていると結論付けている。
論文 参考訳(メタデータ) (2021-04-23T04:19:15Z) - An Interpretable End-to-end Fine-tuning Approach for Long Clinical Text [72.62848911347466]
EHRにおける非構造化臨床テキストには、意思決定支援、トライアルマッチング、振り返り研究を含むアプリケーションにとって重要な情報が含まれている。
最近の研究は、これらのモデルが他のNLPドメインにおける最先端の性能を考慮し、BERTベースのモデルを臨床情報抽出およびテキスト分類に応用している。
本稿では,SnipBERTという新しい微調整手法を提案する。SnipBERTは全音符を使用する代わりに,重要なスニペットを識別し,階層的に切り刻まれたBERTベースのモデルに供給する。
論文 参考訳(メタデータ) (2020-11-12T17:14:32Z) - GiBERT: Introducing Linguistic Knowledge into BERT through a Lightweight
Gated Injection Method [29.352569563032056]
本稿では,言語知識を単語埋め込みの形で,事前学習したBERTに明示的に注入する手法を提案する。
依存性ベースと逆適合の埋め込みを注入する場合、複数のセマンティックな類似性データセットのパフォーマンス改善は、そのような情報が有益であり、現在元のモデルから欠落していることを示している。
論文 参考訳(メタデータ) (2020-10-23T17:00:26Z) - FewJoint: A Few-shot Learning Benchmark for Joint Language Understanding [55.38905499274026]
機械学習は、機械学習における重要なステップの1つだ。
FewJointは、NLP用のFew-Shot Learningベンチマークである。
論文 参考訳(メタデータ) (2020-09-17T08:17:12Z) - Domain-Specific Language Model Pretraining for Biomedical Natural
Language Processing [73.37262264915739]
バイオメディシンなどのラベルなしテキストの少ないドメインでは、スクラッチから言語モデルを事前学習することで、かなりの利益が得られることを示す。
実験の結果, ドメイン固有のプレトレーニングは, 幅広い生物医学的NLPタスクの基盤となることが明らかとなった。
論文 参考訳(メタデータ) (2020-07-31T00:04:15Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。