論文の概要: BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts
- arxiv url: http://arxiv.org/abs/2310.09238v2
- Date: Wed, 18 Oct 2023 03:51:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:57:10.288453
- Title: BanglaNLP at BLP-2023 Task 2: Benchmarking different Transformer Models
for Sentiment Analysis of Bangla Social Media Posts
- Title(参考訳): BLP-2023タスク2におけるBanglaNLP:Banglaソーシャルメディアポストの知覚分析のための異なるトランスフォーマーモデルのベンチマーク
- Authors: Saumajit Saha and Albert Nanda
- Abstract要約: 本稿では,BLPワークショップ第2タスク(Bangla Social Media Posts の感性分析)について紹介する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
テストセットで67.02%のマイクロF1を取得し、この共有タスクのパフォーマンスをリーダーボードで21にランク付けする。
- 参考スコア(独自算出の注目度): 0.46040036610482665
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bangla is the 7th most widely spoken language globally, with a staggering 234
million native speakers primarily hailing from India and Bangladesh. This
morphologically rich language boasts a rich literary tradition, encompassing
diverse dialects and language-specific challenges. Despite its linguistic
richness and history, Bangla remains categorized as a low-resource language
within the natural language processing (NLP) and speech community. This paper
presents our submission to Task 2 (Sentiment Analysis of Bangla Social Media
Posts) of the BLP Workshop. We experiment with various Transformer-based
architectures to solve this task. Our quantitative results show that transfer
learning really helps in better learning of the models in this low-resource
language scenario. This becomes evident when we further finetune a model which
has already been finetuned on twitter data for sentiment analysis task and that
finetuned model performs the best among all other models. We also perform a
detailed error analysis where we find some instances where ground truth labels
need to be relooked at. We obtain a micro-F1 of 67.02\% on the test set and our
performance in this shared task is ranked at 21 in the leaderboard.
- Abstract(参考訳): バングラ語は世界で7番目に広く話されている言語であり、インドやバングラデシュからの話者は2億2400万人である。
この形態学的に豊かな言語は豊富な文学的伝統を持ち、多様な方言と言語固有の課題を含んでいる。
言語豊かさと歴史にもかかわらず、バングラは自然言語処理(NLP)と音声コミュニティの中で、低リソース言語として分類されている。
本稿では,blpワークショップのタスク2 (sentiment analysis of bangla social media post) への投稿について述べる。
この課題を解決するために、Transformerベースの様々なアーキテクチャを実験する。
我々の定量的結果は、トランスファーラーニングが、この低リソース言語シナリオにおけるモデルのより優れた学習に役立つことを示している。
これは、感情分析タスクのために既にtwitterデータに微調整されたモデルと、その微調整されたモデルが他のすべてのモデルの中で最善の性能を発揮すると、明らかになる。
また、詳細なエラー解析を行い、基底真理ラベルを見直す必要があるいくつかのインスタンスを見つけます。
テストセットで67.02\%のマイクロF1を取得し、この共有タスクにおけるパフォーマンスをリーダーボードで21にランク付けする。
関連論文リスト
- BongLLaMA: LLaMA for Bangla Language [0.0]
BongLLaMAは、大規模なBanglaコーパスと命令チューニングデータセットにのみ焦点を絞った、オープンソースの大規模言語モデルである。
BLPタスクにおけるBongLLaMAの有用性を示すため,本手法,データ拡張手法,微調整の詳細,総合的なベンチマーク結果を提案する。
論文 参考訳(メタデータ) (2024-10-28T16:44:02Z) - The Power of Question Translation Training in Multilingual Reasoning: Broadened Scope and Deepened Insights [108.40766216456413]
大規模言語モデルの英語と非英語のパフォーマンスのギャップを埋めるための質問アライメントフレームワークを提案する。
実験結果から、さまざまな推論シナリオ、モデルファミリー、サイズにわたって、多言語のパフォーマンスを向上できることが示された。
我々は、表現空間、生成された応答とデータスケールを分析し、質問翻訳訓練がLLM内の言語アライメントをどのように強化するかを明らかにする。
論文 参考訳(メタデータ) (2024-05-02T14:49:50Z) - RSM-NLP at BLP-2023 Task 2: Bangla Sentiment Analysis using Weighted and
Majority Voted Fine-Tuned Transformers [2.048226951354646]
本稿では,BLP Workshop - Sentiment Analysis of Bangla Social Media Postsで行った投稿に対するアプローチについて述べる。
マルチクラス分類タスクでは0.711, 共有タスクでは10位となった。
論文 参考訳(メタデータ) (2023-10-22T10:55:56Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Baichuan 2: Open Large-scale Language Models [51.56361715162972]
我々は、70億と13億のパラメータを含む大規模な多言語言語モデルであるBaichuan 2を、2.6兆のトークン上でスクラッチからトレーニングする。
Baichuan 2は、MMLU、CMMLU、GSM8K、HumanEvalなどの公開ベンチマークで、同様のサイズの他のオープンソースモデルにマッチするか、より優れています。
論文 参考訳(メタデータ) (2023-09-19T04:13:22Z) - On Evaluation of Bangla Word Analogies [0.8658596218544772]
本稿では,Bangla単語の埋め込み品質を評価するための高品質なデータセットを提案する。
世界で7番目に普及した言語であるにもかかわらず、Banglaは低リソース言語であり、人気のあるNLPモデルはうまく機能しない。
論文 参考訳(メタデータ) (2023-04-10T14:27:35Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - A Review of Bangla Natural Language Processing Tasks and the Utility of
Transformer Models [2.5768647103950357]
研究コミュニティで利用可能なBangla NLPタスク、リソース、ツールについてレビューする。
我々は、現在最先端のアルゴリズムを用いて、9つのNLPタスクのために、さまざまなプラットフォームから収集されたデータセットをベンチマークした。
個人と統合されたデータセットを用いてその結果を報告し、今後の研究のためのデータを提供する。
論文 参考訳(メタデータ) (2021-07-08T13:49:46Z) - BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding [1.7000879291900044]
私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
論文 参考訳(メタデータ) (2021-01-01T09:28:45Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。