論文の概要: DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning
- arxiv url: http://arxiv.org/abs/2305.02607v1
- Date: Thu, 4 May 2023 07:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 16:38:21.555969
- Title: DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning
- Title(参考訳): DN at SemEval-2023 Task 12: Multilingual Pretrained Language Model Fine-tuning による低リソース言語テキスト分類
- Authors: Daniil Homskiy, Narek Maloyan
- Abstract要約: 感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, sentiment analysis has gained significant importance in
natural language processing. However, most existing models and datasets for
sentiment analysis are developed for high-resource languages, such as English
and Chinese, leaving low-resource languages, particularly African languages,
largely unexplored. The AfriSenti-SemEval 2023 Shared Task 12 aims to fill this
gap by evaluating sentiment analysis models on low-resource African languages.
In this paper, we present our solution to the shared task, where we employed
different multilingual XLM-R models with classification head trained on various
data, including those retrained in African dialects and fine-tuned on target
languages. Our team achieved the third-best results in Subtask B, Track 16:
Multilingual, demonstrating the effectiveness of our approach. While our model
showed relatively good results on multilingual data, it performed poorly in
some languages. Our findings highlight the importance of developing more
comprehensive datasets and models for low-resource African languages to advance
sentiment analysis research. We also provided the solution on the github
repository.
- Abstract(参考訳): 近年,自然言語処理において感情分析が重要になっている。
しかし、感情分析のための既存のモデルやデータセットは、英語や中国語のような高リソース言語向けに開発されており、低リソース言語、特にアフリカ言語は、ほとんど探索されていない。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
本稿では,多言語xlm-rモデルを用いて,アフリカの方言で再訓練されたり,ターゲット言語で微調整されたものを含む,様々なデータに基づいて分類ヘッドを訓練した。
われわれのチームはSubtask B, Track 16: Multilingualで3番目に高い結果を得た。
本モデルは多言語データにおいて比較的良好な結果を示したが,一部の言語では成績が低かった。
我々の研究は、感情分析研究を進めるために、低リソースのアフリカ言語のためのより包括的なデータセットとモデルを開発することの重要性を強調した。
githubリポジトリのソリューションも提供しています。
関連論文リスト
- Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - GradSim: Gradient-Based Language Grouping for Effective Multilingual
Training [13.730907708289331]
勾配類似度に基づく言語グループ化手法GradSimを提案する。
3つの多言語ベンチマークデータセットに対する実験により、最大のパフォーマンス向上につながることが示された。
言語的特徴の他に、データセットのトピックは言語グループ化において重要な役割を果たす。
論文 参考訳(メタデータ) (2023-10-23T18:13:37Z) - Sentiment Analysis Across Multiple African Languages: A Current
Benchmark [5.701291200264771]
14のアフリカの言語に関する注釈付き感情分析が利用可能となった。
12言語にわたる現在の最先端のトランスフォーマーモデルをベンチマークし比較した。
以上の結果から,低リソース・モデリングに携わるにもかかわらず,言語毎のより優れたモデルを生成するデータが増えることが示唆された。
論文 参考訳(メタデータ) (2023-10-21T21:38:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - The Belebele Benchmark: a Parallel Reading Comprehension Dataset in 122 Language Variants [80.4837840962273]
私たちは122の言語変種にまたがるデータセットであるBelebeleを紹介します。
このデータセットは、高、中、低リソース言語におけるテキストモデルの評価を可能にする。
論文 参考訳(メタデータ) (2023-08-31T17:43:08Z) - NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis [11.05909046179595]
本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。
対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
論文 参考訳(メタデータ) (2023-04-28T21:02:58Z) - UIO at SemEval-2023 Task 12: Multilingual fine-tuning for sentiment
classification in low-resource languages [0.0]
本研究では,事前学習中に見つからない言語における感情分析の資源として,多言語大言語モデルをいかに活用できるかを示す。
言語は事前訓練で使用される言語と関連し、言語データは様々なコードスイッチングを含む。
最終細調整のための単言語データセットと多言語データセットの両方を実験し、数千のサンプルを含むデータセットを用いて、単言語細調整が最良の結果をもたらすことを確かめる。
論文 参考訳(メタデータ) (2023-04-27T13:51:18Z) - AfroLM: A Self-Active Learning-based Multilingual Pretrained Language
Model for 23 African Languages [0.021987601456703476]
AfroLMは、23のアフリカ語でスクラッチから事前訓練された多言語言語モデルである。
AfroLMは、既存のベースラインよりも小さいデータセット14xで事前訓練される。
様々な領域にまたがってうまく一般化することができる。
論文 参考訳(メタデータ) (2022-11-07T02:15:25Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。