論文の概要: Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers
- arxiv url: http://arxiv.org/abs/2212.00587v1
- Date: Thu, 1 Dec 2022 15:24:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 14:55:37.339582
- Title: Embedding generation for text classification of Brazilian Portuguese
user reviews: from bag-of-words to transformers
- Title(参考訳): ブラジルポルトガル語ユーザレビューのテキスト分類のための埋め込み生成--back-of-wordsからtransformerへ
- Authors: Frederico Dias Souza and Jo\~ao Baptista de Oliveira e Souza Filho
- Abstract要約: この研究は、古典的(バグ・オブ・ワード)から最先端(トランスフォーマーベース)NLPモデルまで含んでいる。
本研究の目的は,ブラジルポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする埋め込みアプローチに関する総合的な実験的研究を提供することである。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text classification is a natural language processing (NLP) task relevant to
many commercial applications, like e-commerce and customer service. Naturally,
classifying such excerpts accurately often represents a challenge, due to
intrinsic language aspects, like irony and nuance. To accomplish this task, one
must provide a robust numerical representation for documents, a process known
as embedding. Embedding represents a key NLP field nowadays, having faced a
significant advance in the last decade, especially after the introduction of
the word-to-vector concept and the popularization of Deep Learning models for
solving NLP tasks, including Convolutional Neural Networks (CNNs), Recurrent
Neural Networks (RNNs), and Transformer-based Language Models (TLMs). Despite
the impressive achievements in this field, the literature coverage regarding
generating embeddings for Brazilian Portuguese texts is scarce, especially when
considering commercial user reviews. Therefore, this work aims to provide a
comprehensive experimental study of embedding approaches targeting a binary
sentiment classification of user reviews in Brazilian Portuguese. This study
includes from classical (Bag-of-Words) to state-of-the-art (Transformer-based)
NLP models. The methods are evaluated with five open-source databases with
pre-defined data partitions made available in an open digital repository to
encourage reproducibility. The Fine-tuned TLMs achieved the best results for
all cases, being followed by the Feature-based TLM, LSTM, and CNN, with
alternate ranks, depending on the database under analysis.
- Abstract(参考訳): テキスト分類は、eコマースやカスタマーサービスなど、多くの商用アプリケーションに関連する自然言語処理(nlp)タスクである。
当然、こうした抜粋を正確に分類することは、皮肉やニュアンスのような内在的な言語的側面から、しばしば挑戦を表している。
このタスクを達成するには、埋め込みとして知られる文書の堅牢な数値表現を提供しなければならない。
近年、埋め込みは重要なNLP分野であり、特に、ワード・ツー・ベクターの概念の導入や、畳み込みニューラルネットワーク(CNN)、リカレントニューラルネットワーク(RNN)、トランスフォーマーベースの言語モデル(TLM)など、NLPタスクを解決するディープラーニングモデルの普及以降、この10年間で大きな進歩に直面している。
この分野での顕著な成果にもかかわらず、ブラジルポルトガル語のテキストの埋め込みに関する文献は、特に商業的ユーザレビューを考えると、ほとんどない。
そこで本研究は,ブラジル・ポルトガル語におけるユーザレビューのバイナリ感情分類を対象とする組込みアプローチの包括的実験研究を目的とする。
本研究は,古典的(バック・オブ・ワード)から最先端(トランスフォーマーベース)nlpモデルまでを含む。
これらの方法は、再現性を促進するために、オープンデジタルリポジトリで利用可能な事前定義されたデータパーティションを持つ5つのオープンソースデータベースで評価される。
微調整 TLM は全てのケースで最高の結果となり、分析対象のデータベースによって異なるランクで特徴ベースの TLM, LSTM, CNN が続く。
関連論文リスト
- A Novel Cartography-Based Curriculum Learning Method Applied on RoNLI: The First Romanian Natural Language Inference Corpus [71.77214818319054]
自然言語推論は自然言語理解のプロキシである。
ルーマニア語のNLIコーパスは公開されていない。
58Kの訓練文対からなるルーマニア初のNLIコーパス(RoNLI)を紹介する。
論文 参考訳(メタデータ) (2024-05-20T08:41:15Z) - Exploring Precision and Recall to assess the quality and diversity of LLMs [82.21278402856079]
我々はtextscLlama-2 や textscMistral のような大規模言語モデル (LLM) のための新しい評価フレームワークを提案する。
このアプローチにより、コーパスの整合を必要とせず、生成したテキストの品質と多様性を微妙に評価できる。
論文 参考訳(メタデータ) (2024-02-16T13:53:26Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - MoSECroT: Model Stitching with Static Word Embeddings for Crosslingual Zero-shot Transfer [50.40191599304911]
クロスリンガルゼロショット転送のための静的単語埋め込みを用いたMoSECroTモデルスティッチについて紹介する。
本稿では,ソースコードPLMの埋め込みと対象言語の静的単語埋め込みのための共通空間を構築するために,相対表現を利用した最初のフレームワークを提案する。
提案するフレームワークは,MoSECroTに対処する際,弱いベースラインと競合するが,強いベースラインに比べて競合する結果が得られないことを示す。
論文 参考訳(メタデータ) (2024-01-09T21:09:07Z) - BERT for Sentiment Analysis: Pre-trained and Fine-Tuned Alternatives [0.0]
BERTは、大きな言語モデルで伝達学習を可能にすることで、NLP分野に革命をもたらした。
本稿では、BERT出力層が提供する異なる埋め込みと、多言語モデルの代わりに言語固有の使用について、よりよく対処する方法について研究する。
論文 参考訳(メタデータ) (2022-01-10T15:05:05Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - Reinforced Iterative Knowledge Distillation for Cross-Lingual Named
Entity Recognition [54.92161571089808]
言語間NERは、知識をリッチリソース言語から低リソース言語に転送する。
既存の言語間NERメソッドは、ターゲット言語でリッチなラベル付けされていないデータをうまく利用しない。
半教師付き学習と強化学習のアイデアに基づく新しいアプローチを開発する。
論文 参考訳(メタデータ) (2021-06-01T05:46:22Z) - Deep Learning for Hindi Text Classification: A Comparison [6.8629257716723]
デヴァナガリ文字で書かれた形態的に豊かで低資源のヒンディー語を分類する研究は、大きなラベル付きコーパスがないために限られている。
本研究では,CNN,LSTM,注意に基づくモデル評価のために,英文データセットの翻訳版を用いた。
また,本論文は,一般的なテキスト分類手法のチュートリアルとしても機能する。
論文 参考訳(メタデータ) (2020-01-19T09:29:12Z) - Exploring the Limits of Transfer Learning with a Unified Text-to-Text
Transformer [64.22926988297685]
下流タスクで微調整される前に、まずデータリッチタスクでモデルが事前訓練されるトランスファーラーニングは、自然言語処理(NLP)において強力な手法として登場した。
本稿では,すべてのテキストベースの言語問題をテキスト・トゥ・テキスト・フォーマットに変換する統一フレームワークにより,NLPのためのトランスファー学習手法を導入する状況について検討する。
論文 参考訳(メタデータ) (2019-10-23T17:37:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。