論文の概要: A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese
- arxiv url: http://arxiv.org/abs/2009.13060v2
- Date: Tue, 29 Sep 2020 01:32:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-13 21:49:31.716773
- Title: A Simple and Efficient Ensemble Classifier Combining Multiple Neural
Network Models on Social Media Datasets in Vietnamese
- Title(参考訳): ベトナムのソーシャルメディアデータセット上での複数のニューラルネットワークモデルを組み合わせた簡易かつ効率的なアンサンブル分類器
- Authors: Huy Duc Huynh, Hang Thi-Thuy Do, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen
- Abstract要約: 本研究の目的は、ベトナムの3つのベンチマークデータセットから、ソーシャルメディア上のベトナム語のテキストを分類することである。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
私たちのアンサンブルモデルは、3つのデータセットで最高のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 2.7528170226206443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Text classification is a popular topic of natural language processing, which
has currently attracted numerous research efforts worldwide. The significant
increase of data in social media requires the vast attention of researchers to
analyze such data. There are various studies in this field in many languages
but limited to the Vietnamese language. Therefore, this study aims to classify
Vietnamese texts on social media from three different Vietnamese benchmark
datasets. Advanced deep learning models are used and optimized in this study,
including CNN, LSTM, and their variants. We also implement the BERT, which has
never been applied to the datasets. Our experiments find a suitable model for
classification tasks on each specific dataset. To take advantage of single
models, we propose an ensemble model, combining the highest-performance models.
Our single models reach positive results on each dataset. Moreover, our
ensemble model achieves the best performance on all three datasets. We reach
86.96% of F1- score for the HSD-VLSP dataset, 65.79% of F1-score for the
UIT-VSMEC dataset, 92.79% and 89.70% for sentiments and topics on the UIT-VSFC
dataset, respectively. Therefore, our models achieve better performances as
compared to previous studies on these datasets.
- Abstract(参考訳): テキスト分類は自然言語処理の一般的な話題であり、現在世界中で多くの研究が進められている。
ソーシャルメディアにおけるデータの大幅な増加は、こうしたデータを分析する研究者の膨大な注意を必要とする。
この分野には多くの言語で様々な研究があるが、ベトナム語に限られている。
そこで本研究では,ベトナム語のテキストを3つの異なるベンチマークデータセットから分類することを目的とした。
この研究では、CNN、LSTM、およびそれらの変種を含む高度なディープラーニングモデルを使用し、最適化されている。
また、データセットに適用されていないBERTを実装しています。
実験では,各データセットの分類タスクに適したモデルを見出した。
単一モデルを活用するために,最高性能モデルを組み合わせたアンサンブルモデルを提案する。
私たちの1つのモデルはそれぞれのデータセットでポジティブな結果に到達します。
さらに,我々のアンサンブルモデルは3つのデータセットで最高の性能を達成する。
HSD-VLSPデータセットのF1スコアの86.96%、UIT-VSMECデータセットのF1スコアの65.79%、UIT-VSFCデータセットの感情とトピックの89.70%に達する。
したがって,本モデルでは,これらのデータセットの先行研究と比較して性能が向上する。
関連論文リスト
- FedLLM-Bench: Realistic Benchmarks for Federated Learning of Large Language Models [48.484485609995986]
フェデレートラーニングにより、複数のパーティがデータを直接共有することなく、協力的に大きな言語モデルをトレーニングできるようになった(FedLLM)。
現在、FedLLMの現実的なデータセットやベンチマークは存在しない。
我々は,8つのトレーニング手法,4つのトレーニングデータセット,6つの評価指標を含むFedLLM-Benchを提案する。
論文 参考訳(メタデータ) (2024-06-07T11:19:30Z) - MTEB-French: Resources for French Sentence Embedding Evaluation and Analysis [1.5761916307614148]
本稿では,フランス語の文埋め込みに関する最初のベンチマークを提案する。
51個の埋め込みモデルを大規模に比較した。
すべてのタスクにおいてモデルが最良でない場合でも、文類似性に基づいて事前訓練された大規模多言語モデルは非常によく機能することがわかった。
論文 参考訳(メタデータ) (2024-05-30T20:34:37Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Unified Model Learning for Various Neural Machine Translation [63.320005222549646]
既存の機械翻訳(NMT)研究は主にデータセット固有のモデルの開発に焦点を当てている。
我々は,NMT(UMLNMT)のための統一モデル学習モデル(Unified Model Learning for NMT)を提案する。
OurNMTは、データセット固有のモデルよりも大幅に改善され、モデルデプロイメントコストが大幅に削減される。
論文 参考訳(メタデータ) (2023-05-04T12:21:52Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Improving Persian Relation Extraction Models by Data Augmentation [0.0]
本システムの結果と結果について述べる。
PERLEXをベースデータセットとして使用し、テキスト前処理のステップを適用して拡張する。
次に、拡張PERLEXデータセット上の関係抽出にParsBERTとmultilingual BERTの2つの異なるモデルを用いる。
論文 参考訳(メタデータ) (2022-03-29T08:08:47Z) - MSeg: A Composite Dataset for Multi-domain Semantic Segmentation [100.17755160696939]
セマンティックセグメンテーションデータセットを異なるドメインから統合する合成データセットであるMSegを提案する。
一般化と画素レベルのアノテーションのアライメントを調整し,2万枚以上のオブジェクトマスクを8万枚以上の画像で再現する。
MSegでトレーニングされたモデルは、WildDash-v1のリーダーボードで、トレーニング中にWildDashのデータに触れることなく、堅牢なセマンティックセグメンテーションのためにランク付けされている。
論文 参考訳(メタデータ) (2021-12-27T16:16:35Z) - Benchmarking the Benchmark -- Analysis of Synthetic NIDS Datasets [4.125187280299247]
我々は,より最近で関連する3つのNIDSデータセットにおいて,良性トラフィックの統計的性質を解析した。
以上の結果から,合成データセットと実世界の2つのデータセットの統計的特徴の相違が明らかとなった。
論文 参考訳(メタデータ) (2021-04-19T03:17:37Z) - Dataset Cartography: Mapping and Diagnosing Datasets with Training
Dynamics [118.75207687144817]
我々はデータセットを特徴付け、診断するモデルベースのツールであるData Mapsを紹介した。
私たちは、トレーニング中の個々のインスタンス上でのモデルの振る舞いという、ほとんど無視された情報のソースを活用しています。
以上の結果から,データ量から品質へのフォーカスの変化は,ロバストなモデルとアウト・オブ・ディストリビューションの一般化に繋がる可能性が示唆された。
論文 参考訳(メタデータ) (2020-09-22T20:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。