Fugu-MT 論文翻訳(概要): COVID-19-related Nepali Tweets Classification in a Low Resource Setting

論文の概要: COVID-19-related Nepali Tweets Classification in a Low Resource Setting

arxiv url: http://arxiv.org/abs/2210.05425v1
Date: Tue, 11 Oct 2022 13:08:37 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-12 14:56:35.610983
Title: COVID-19-related Nepali Tweets Classification in a Low Resource Setting
Title（参考訳）: 低資源環境下でのcovid-19関連ネパールつぶやき分類
Authors: Rabin Adhikari, Safal Thapaliya, Nirajan Basnet, Samip Poudel, Aman Shakya, Bishesh Khanal
Abstract要約: ネパール語を用いて、Twitterコミュニティの中で最も一般的な8つのトピックを特定します。ネパールのつぶやき分類のための2つの最先端多言語言語モデルの性能を比較した。
参考スコア（独自算出の注目度）: 0.15658704610960567
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Billions of people across the globe have been using social media platforms in their local languages to voice their opinions about the various topics related to the COVID-19 pandemic. Several organizations, including the World Health Organization, have developed automated social media analysis tools that classify COVID-19-related tweets into various topics. However, these tools that help combat the pandemic are limited to very few languages, making several countries unable to take their benefit. While multi-lingual or low-resource language-specific tools are being developed, they still need to expand their coverage, such as for the Nepali language. In this paper, we identify the eight most common COVID-19 discussion topics among the Twitter community using the Nepali language, set up an online platform to automatically gather Nepali tweets containing the COVID-19-related keywords, classify the tweets into the eight topics, and visualize the results across the period in a web-based dashboard. We compare the performance of two state-of-the-art multi-lingual language models for Nepali tweet classification, one generic (mBERT) and the other Nepali language family-specific model (MuRIL). Our results show that the models' relative performance depends on the data size, with MuRIL doing better for a larger dataset. The annotated data, models, and the web-based dashboard are open-sourced at https://github.com/naamiinepal/covid-tweet-classification.
Abstract（参考訳）: 新型コロナウイルス(COVID-19)のパンデミックに関連するさまざまな話題について、世界中の何十億人もの人々が地元言語でソーシャルメディアプラットフォームを使用して意見を述べている。世界保健機関(WHO)を含むいくつかの組織は、新型コロナウイルス関連のツイートをさまざまなトピックに分類する自動ソーシャルメディア分析ツールを開発した。しかし、パンデミックと戦うツールは非常に少ない言語に限られており、いくつかの国では利益を享受できない。多言語または低リソース言語固有のツールが開発されているが、ネパール語など、その範囲を広げる必要がある。本稿では,ネパール語を用いたTwitterコミュニティ内で最も一般的な8つのトピックを特定し,そのキーワードを含むネパール語ツイートを自動的に収集するオンラインプラットフォームを構築し,8つのトピックに分類し,Webベースのダッシュボードでその結果を視覚化する。ネパール語ツイート分類のための最先端多言語言語モデルと1つのジェネリック(mBERT)ともう1つのネパール語ファミリー固有モデル(MuRIL)の比較を行った。以上の結果から,モデルの性能はデータサイズに依存し,MuRILはより大きなデータセットに対して良好であることがわかった。アノテーション付きデータ、モデル、Webベースのダッシュボードはhttps://github.com/naamiinepal/covid-tweet-classificationでオープンソース化されている。

関連論文リスト

SenWave: A Fine-Grained Multi-Language Sentiment Analysis Dataset Sourced from COVID-19 Tweets [42.98177831933239]
SenWaveは、新型コロナウイルス(COVID-19)のツイートを分析するために特別に設計された、新しい微粒な多言語感情分析データセットである。このデータセットは、英語とアラビア語でそれぞれ1万の注釈付きツイートと、スペイン語、フランス語、イタリア語で3万の翻訳ツイートで構成されている。本研究は,言語,国,トピック間の進化する情緒的景観を詳細に分析し,時間とともに重要な洞察を明らかにする。
論文参考訳（メタデータ） (2025-10-09T13:38:05Z)
Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文参考訳（メタデータ） (2024-11-24T06:38:24Z)
Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文参考訳（メタデータ） (2024-08-01T04:56:13Z)
Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。 10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文参考訳（メタデータ） (2024-01-31T17:58:10Z)
Making a MIRACL: Multilingual Information Retrieval Across a Continuum of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。 18の言語にまたがるアドホック検索に焦点を当てている。我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文参考訳（メタデータ） (2022-10-18T16:47:18Z)
Multi-channel CNN to classify nepali covid-19 related tweets using hybrid features [1.713291434132985]
私たちは、ハイブリッド機能と呼ばれる構文情報と意味情報を組み合わせることで、それぞれのツイートを表現します。我々は、複数のCNNをアンサンブルする新しいマルチチャネル畳み込みニューラルネットワーク(MCNN)を設計する。提案手法と,NepCOV19Tweetsデータセット上でツイートを分類するMCNNモデルの有効性を評価する。
論文参考訳（メタデータ） (2022-03-19T09:55:05Z)
A New Generation of Perspective API: Efficient Multilingual Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文参考訳（メタデータ） (2022-02-22T20:55:31Z)
Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。まず、40言語を対象に、17,000時間の生音声データをキュレートする。この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文参考訳（メタデータ） (2021-11-06T19:34:33Z)
Sentiment analysis in tweets: an assessment study from classical to modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文参考訳（メタデータ） (2021-05-29T21:05:28Z)
No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet Detection [4.411285005377513]
我々は、英語以外の複数のインデックス言語に対して、ツイートなどのソーシャルメディアから、早期に新型コロナウイルスに関する偽ニュースを検出するアプローチを提案する。複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。我々の手法は89%の偽ツイート検出でFスコアに達し、その結果がSOTA(State-of-the-art)の結果に取って代わる。
論文参考訳（メタデータ） (2020-10-14T09:37:51Z)
TICO-19: the Translation Initiative for Covid-19 [112.5601530395345]
COvid-19の翻訳イニシアチブ(TICO-19)は、テストおよび開発データを、35の異なる言語でAIおよびMT研究者に提供した。同じデータが表現されているすべての言語に変換されるため、テストや開発は、セット内の任意の言語のペアリングに対して行うことができる。
論文参考訳（メタデータ） (2020-07-03T16:26:17Z)
CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。 11,000人以上の話者と60以上のアクセントで多様化した。 CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文参考訳（メタデータ） (2020-02-04T14:35:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。