論文の概要: NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis
- arxiv url: http://arxiv.org/abs/2305.00090v1
- Date: Fri, 28 Apr 2023 21:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-02 17:19:59.601598
- Title: NLNDE at SemEval-2023 Task 12: Adaptive Pretraining and Source Language
Selection for Low-Resource Multilingual Sentiment Analysis
- Title(参考訳): semeval-2023タスク12におけるnlnde : 低リソース多言語感情分析のための適応的事前学習とソース言語選択
- Authors: Mingyang Wang, Heike Adel, Lukas Lange, Jannik Str\"otgen and Hinrich
Sch\"utze
- Abstract要約: 本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカの言語に対する感性分析」のために開発したシステムについて述べる。
対象言語とタスクに事前訓練されたモデルを適用すると、小さいが関連するコーパスを使うことで、F1スコア以上のパフォーマンスが著しく向上する。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
- 参考スコア(独自算出の注目度): 11.05909046179595
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper describes our system developed for the SemEval-2023 Task 12
"Sentiment Analysis for Low-resource African Languages using Twitter Dataset".
Sentiment analysis is one of the most widely studied applications in natural
language processing. However, most prior work still focuses on a small number
of high-resource languages. Building reliable sentiment analysis systems for
low-resource languages remains challenging, due to the limited training data in
this task. In this work, we propose to leverage language-adaptive and
task-adaptive pretraining on African texts and study transfer learning with
source language selection on top of an African language-centric pretrained
language model. Our key findings are: (1) Adapting the pretrained model to the
target language and task using a small yet relevant corpus improves performance
remarkably by more than 10 F1 score points. (2) Selecting source languages with
positive transfer gains during training can avoid harmful interference from
dissimilar languages, leading to better results in multilingual and
cross-lingual settings. In the shared task, our system wins 8 out of 15 tracks
and, in particular, performs best in the multilingual evaluation.
- Abstract(参考訳): 本稿では,SemEval-2023タスク12「Twitterデータセットを用いた低リソースアフリカ言語感性分析」のために開発したシステムについて述べる。
感性分析は自然言語処理における最も広く研究されている応用の1つである。
しかし、これまでの作業のほとんどは、少数の高リソース言語に焦点を当てていた。
低リソース言語のための信頼できる感情分析システムの構築は、このタスクの限られたトレーニングデータのため、依然として困難である。
本研究では,アフリカのテキストにおける言語適応型およびタスク適応型事前学習の活用と,アフリカ言語中心の事前学習言語モデル上でのソース言語選択によるトランスファー学習の学習を提案する。
その結果,(1)目標言語とタスクに事前学習モデルを適用することで,F1スコアを10点以上獲得することで,性能が著しく向上することがわかった。
2) 学習中に正の転送ゲインを持つソース言語を選択することで,異種言語からの有害な干渉を回避できる。
共有タスクでは、15トラック中8トラックが勝利し、特に多言語評価において最善を尽くす。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - DN at SemEval-2023 Task 12: Low-Resource Language Text Classification
via Multilingual Pretrained Language Model Fine-tuning [0.0]
感情分析のための既存のモデルやデータセットは、英語や中国語などの高リソース言語向けに開発されている。
AfriSenti-SemEval 2023 Shared Task 12は、低リソースのアフリカの言語に対する感情分析モデルを評価することで、このギャップを埋めることを目的としている。
そこで我々は,多言語XLM-Rモデルを多言語モデルに適用し,様々なデータに基づいて分類ヘッドを訓練した。
論文 参考訳(メタデータ) (2023-05-04T07:28:45Z) - Masakhane-Afrisenti at SemEval-2023 Task 12: Sentiment Analysis using
Afro-centric Language Models and Adapters for Low-resource African Languages [0.0]
この課題は、アフリカの12言語に対する単言語感情分類(サブタスクA)、多言語感情分類(サブタスクB)、ゼロショット感情分類(タスクC)の実施を目的とする。
その結果, 事前学習したアフロ中心言語モデルを用いることで, 低資源アフリカ言語の性能が向上することが示唆された。
また,ゼロショットタスク用のアダプタを用いた実験を行った結果,限られたリソースしか持たないアダプタを用いて,有望な結果が得られることが示唆された。
論文 参考訳(メタデータ) (2023-04-13T12:54:29Z) - MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity
Recognition [55.95128479289923]
アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。
我々は、20のアフリカ言語で最大の人間アノテーション付きNERデータセットを作成します。
最適な転送言語を選択すると、ゼロショットF1スコアが平均14ポイント向上することを示す。
論文 参考訳(メタデータ) (2022-10-22T08:53:14Z) - Language Chameleon: Transformation analysis between languages using
Cross-lingual Post-training based on Pre-trained language models [4.731313022026271]
本研究では,1つの低リソース言語に着目し,言語横断後学習(XPT)を用いた広範囲な評価と探索実験を行う。
結果から,XPTは桁違いのデータ量で訓練された単言語モデルに匹敵する性能を示した。
論文 参考訳(メタデータ) (2022-09-14T05:20:52Z) - No Language Left Behind: Scaling Human-Centered Machine Translation [69.28110770760506]
低レベルの言語と高レベルの言語のパフォーマンスギャップを狭めるためのデータセットとモデルを作成します。
何千ものタスクをトレーニングしながらオーバーフィッティングに対処するために,複数のアーキテクチャとトレーニングの改善を提案する。
本モデルでは,従来の最先端技術と比較して,BLEUの44%の改善を実現している。
論文 参考訳(メタデータ) (2022-07-11T07:33:36Z) - Geographical Distance Is The New Hyperparameter: A Case Study Of Finding
The Optimal Pre-trained Language For English-isiZulu Machine Translation [0.0]
本研究は,英語訳フレームワークにおける翻訳学習の潜在的なメリットについて考察する。
1つの多言語コーパスを含む8つの言語コーパスから得られた結果から,isiXa-isiZuluがすべての言語より優れた結果を得た。
我々はまた,事前学習されたモデルに対する言語選択を容易にする新しい係数である,Nasir's Geographical Distance Coefficient (NGDC) も導出した。
論文 参考訳(メタデータ) (2022-05-17T20:41:25Z) - Por Qu\'e N\~ao Utiliser Alla Spr{\aa}k? Mixed Training with Gradient
Optimization in Few-Shot Cross-Lingual Transfer [2.7213511121305465]
本研究では,ソースデータとターゲットデータの両方を学習する1ステップ混合学習手法を提案する。
我々は1つのモデルを使って全てのターゲット言語を同時に処理し、過度に言語固有のモデルを避ける。
提案手法は,全タスクの最先端性能と目標適応性能を高いマージンで向上させる。
論文 参考訳(メタデータ) (2022-04-29T04:05:02Z) - AfroMT: Pretraining Strategies and Reproducible Benchmarks for
Translation of 8 African Languages [94.75849612191546]
AfroMTは、広く話されている8つのアフリカ言語のための標準化され、クリーンで再現可能な機械翻訳ベンチマークである。
これらの言語の特徴を考慮に入れたシステム診断のための分析ツール群を開発した。
11言語での事前トレーニングでは,強いベースラインに対して最大2つのBLEUポイントのゲインが得られた。
論文 参考訳(メタデータ) (2021-09-10T07:45:21Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。