論文の概要: Sentiment Analysis Across Multiple African Languages: A Current
Benchmark
- arxiv url: http://arxiv.org/abs/2310.14120v1
- Date: Sat, 21 Oct 2023 21:38:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 01:43:11.436853
- Title: Sentiment Analysis Across Multiple African Languages: A Current
Benchmark
- Title(参考訳): 複数のアフリカの言語にまたがる感性分析 : 最近のベンチマーク
- Authors: Saurav K. Aryal, Howard Prioleau, Surakshya Aryal
- Abstract要約: 14のアフリカの言語に関する注釈付き感情分析が利用可能となった。
12言語にわたる現在の最先端のトランスフォーマーモデルをベンチマークし比較した。
以上の結果から,低リソース・モデリングに携わるにもかかわらず,言語毎のより優れたモデルを生成するデータが増えることが示唆された。
- 参考スコア(独自算出の注目度): 5.701291200264771
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Sentiment analysis is a fundamental and valuable task in NLP. However, due to
limitations in data and technological availability, research into sentiment
analysis of African languages has been fragmented and lacking. With the recent
release of the AfriSenti-SemEval Shared Task 12, hosted as a part of The 17th
International Workshop on Semantic Evaluation, an annotated sentiment analysis
of 14 African languages was made available. We benchmarked and compared current
state-of-art transformer models across 12 languages and compared the
performance of training one-model-per-language versus
single-model-all-languages. We also evaluated the performance of standard
multilingual models and their ability to learn and transfer cross-lingual
representation from non-African to African languages. Our results show that
despite work in low resource modeling, more data still produces better models
on a per-language basis. Models explicitly developed for African languages
outperform other models on all tasks. Additionally, no one-model-fits-all
solution exists for a per-language evaluation of the models evaluated.
Moreover, for some languages with a smaller sample size, a larger multilingual
model may perform better than a dedicated per-language model for sentiment
classification.
- Abstract(参考訳): 知覚分析はNLPの基本的で価値のある課題である。
しかし、データと技術的可用性の限界により、アフリカの言語の感情分析の研究は断片化され、不足している。
AfriSenti-SemEval Shared Task 12が17th International Workshop on Semantic Evaluationの一部として公開されたことで、14のアフリカの言語に関する注釈付き感情分析が利用可能になった。
12言語にまたがる最先端のトランスフォーマーモデルのベンチマークと比較を行い、1言語ごとのトレーニング性能と1言語ごとのトレーニング性能を比較した。
また、標準多言語モデルの性能と、非アフリカ語からアフリカ語への言語間表現の学習と伝達能力についても検討した。
その結果,低リソースモデリングの作業にもかかわらず,さらに多くのデータが言語ごとに優れたモデルを生成することがわかった。
アフリカの言語向けに開発されたモデルは、全てのタスクにおいて他のモデルよりも優れている。
さらに、評価されたモデルの言語ごとの評価には、1つのモデルに適したソリューションは存在しない。
さらに、サンプルサイズが小さい言語では、感情分類のための言語ごとの専用モデルよりも、より大きな多言語モデルの方が優れている可能性がある。
関連論文リスト
- InkubaLM: A small language model for low-resource African languages [9.426968756845389]
InkubaLMは0.4億のパラメータを持つ小さな言語モデルである。
パラメータ数が大幅に大きいモデルに匹敵するパフォーマンスを実現する。
複数の言語にまたがる顕著な一貫性を示す。
論文 参考訳(メタデータ) (2024-08-30T05:42:31Z) - Evaluating Large Language Models on Controlled Generation Tasks [92.64781370921486]
本稿では,異なる粒度を持つ文計画ベンチマークを含む,様々なベンチマークを広範囲に分析する。
大規模言語モデルと最先端の微調整された小型モデルを比較した後、大規模言語モデルが後方に落ちたり、比較されたり、より小型モデルの能力を超えたりしたスペクトルを示す。
論文 参考訳(メタデータ) (2023-10-23T03:48:24Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - UBC-DLNLP at SemEval-2023 Task 12: Impact of Transfer Learning on
African Sentiment Analysis [5.945320097465418]
14の異なるアフリカの言語における感情分析の課題に取り組む。
完全教師付き環境下で単言語モデルと多言語モデルの両方を開発する。
本研究は,感情分析における伝達学習と微調整技術の有効性を実証するものである。
論文 参考訳(メタデータ) (2023-04-21T21:25:14Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Language Models are Few-shot Multilingual Learners [66.11011385895195]
我々は、非英語言語における多言語分類を行う際に、GPTモデルとT5モデルの多言語的スキルを評価する。
文脈としての英語の例を見ると、事前学習された言語モデルは、英語のテストサンプルだけでなく、英語以外のサンプルも予測できることが示されている。
論文 参考訳(メタデータ) (2021-09-16T03:08:22Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - Low-Resource Language Modelling of South African Languages [6.805575417034369]
南アフリカの低資源言語におけるボカブラリ言語モデルの性能を評価する。
本研究では,n-gramモデル,feedforwardニューラルネットワーク,recurrent neural network (rnn),transformerの異種を小規模データセット上で評価する。
全体的に、よく規則化されたRNNは、2つのisiZuluと1つのSepediデータセットで最高のパフォーマンスを提供します。
論文 参考訳(メタデータ) (2021-04-01T21:27:27Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。