論文の概要: COVID-19-related Nepali Tweets Classification in a Low Resource Setting
- arxiv url: http://arxiv.org/abs/2210.05425v1
- Date: Tue, 11 Oct 2022 13:08:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 14:56:35.610983
- Title: COVID-19-related Nepali Tweets Classification in a Low Resource Setting
- Title(参考訳): 低資源環境下でのcovid-19関連ネパールつぶやき分類
- Authors: Rabin Adhikari, Safal Thapaliya, Nirajan Basnet, Samip Poudel, Aman
Shakya, Bishesh Khanal
- Abstract要約: ネパール語を用いて、Twitterコミュニティの中で最も一般的な8つのトピックを特定します。
ネパールのつぶやき分類のための2つの最先端多言語言語モデルの性能を比較した。
- 参考スコア(独自算出の注目度): 0.15658704610960567
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Billions of people across the globe have been using social media platforms in
their local languages to voice their opinions about the various topics related
to the COVID-19 pandemic. Several organizations, including the World Health
Organization, have developed automated social media analysis tools that
classify COVID-19-related tweets into various topics. However, these tools that
help combat the pandemic are limited to very few languages, making several
countries unable to take their benefit. While multi-lingual or low-resource
language-specific tools are being developed, they still need to expand their
coverage, such as for the Nepali language. In this paper, we identify the eight
most common COVID-19 discussion topics among the Twitter community using the
Nepali language, set up an online platform to automatically gather Nepali
tweets containing the COVID-19-related keywords, classify the tweets into the
eight topics, and visualize the results across the period in a web-based
dashboard. We compare the performance of two state-of-the-art multi-lingual
language models for Nepali tweet classification, one generic (mBERT) and the
other Nepali language family-specific model (MuRIL). Our results show that the
models' relative performance depends on the data size, with MuRIL doing better
for a larger dataset. The annotated data, models, and the web-based dashboard
are open-sourced at https://github.com/naamiinepal/covid-tweet-classification.
- Abstract(参考訳): 新型コロナウイルス(COVID-19)のパンデミックに関連するさまざまな話題について、世界中の何十億人もの人々が地元言語でソーシャルメディアプラットフォームを使用して意見を述べている。
世界保健機関(WHO)を含むいくつかの組織は、新型コロナウイルス関連のツイートをさまざまなトピックに分類する自動ソーシャルメディア分析ツールを開発した。
しかし、パンデミックと戦うツールは非常に少ない言語に限られており、いくつかの国では利益を享受できない。
多言語または低リソース言語固有のツールが開発されているが、ネパール語など、その範囲を広げる必要がある。
本稿では,ネパール語を用いたTwitterコミュニティ内で最も一般的な8つのトピックを特定し,そのキーワードを含むネパール語ツイートを自動的に収集するオンラインプラットフォームを構築し,8つのトピックに分類し,Webベースのダッシュボードでその結果を視覚化する。
ネパール語ツイート分類のための最先端多言語言語モデルと1つのジェネリック(mBERT)ともう1つのネパール語ファミリー固有モデル(MuRIL)の比較を行った。
以上の結果から,モデルの性能はデータサイズに依存し,MuRILはより大きなデータセットに対して良好であることがわかった。
アノテーション付きデータ、モデル、Webベースのダッシュボードはhttps://github.com/naamiinepal/covid-tweet-classificationでオープンソース化されている。
関連論文リスト
- Development of Pre-Trained Transformer-based Models for the Nepali Language [0.0]
全世界で約3200万人が話しているネパール語は、この領域では著しく過小評価されている。
ネパール語コーパスの約2.4倍の27.5GBのテキストデータを収集した。
我々のモデルは、Nep-gLUEベンチマークで既存の最良のモデルよりも2ポイント優れ、95.60得点、テキスト生成タスクで既存のモデルよりも優れています。
論文 参考訳(メタデータ) (2024-11-24T06:38:24Z) - Navigating Text-to-Image Generative Bias across Indic Languages [53.92640848303192]
本研究ではインドで広く話されているIndic言語に対するテキスト・ツー・イメージ(TTI)モデルのバイアスについて検討する。
これらの言語における主要なTTIモデルの生成的パフォーマンスと文化的関連性を評価し,比較する。
論文 参考訳(メタデータ) (2024-08-01T04:56:13Z) - Paramanu: A Family of Novel Efficient Generative Foundation Language Models for Indian Languages [3.9018931027384056]
インド語のための新しい言語モデル(LM)のファミリーである「Paramanu」を提示する。
10の言語(アッサム語、バングラ語、ヒンディー語、コンカニ語、マイティシ語、マラティ語、オディア語、サンスクリット語、タミル語、テルグ語)を5文字でカバーしている。
モデルは、コンテキストサイズが1024の1つのGPUで事前トレーニングされており、サイズは13.29万(M)から367.5Mまで様々である。
論文 参考訳(メタデータ) (2024-01-31T17:58:10Z) - Making a MIRACL: Multilingual Information Retrieval Across a Continuum
of Languages [62.730361829175415]
MIRACLは、WSDM 2023 Cupチャレンジのために構築した多言語データセットです。
18の言語にまたがるアドホック検索に焦点を当てている。
我々の目標は、言語連続体における検索を改善する研究を加速させることです。
論文 参考訳(メタデータ) (2022-10-18T16:47:18Z) - Multi-channel CNN to classify nepali covid-19 related tweets using
hybrid features [1.713291434132985]
私たちは、ハイブリッド機能と呼ばれる構文情報と意味情報を組み合わせることで、それぞれのツイートを表現します。
我々は、複数のCNNをアンサンブルする新しいマルチチャネル畳み込みニューラルネットワーク(MCNN)を設計する。
提案手法と,NepCOV19Tweetsデータセット上でツイートを分類するMCNNモデルの有効性を評価する。
論文 参考訳(メタデータ) (2022-03-19T09:55:05Z) - A New Generation of Perspective API: Efficient Multilingual
Character-level Transformers [66.9176610388952]
Google JigsawのAspective APIの次期バージョンの基礎を提示する。
このアプローチの中心は、単一の多言語トークンフリーなCharformerモデルである。
静的な語彙を強制することで、さまざまな設定で柔軟性が得られます。
論文 参考訳(メタデータ) (2022-02-22T20:55:31Z) - Towards Building ASR Systems for the Next Billion Users [15.867823754118422]
インド亜大陸からの低資源言語のためのASRシステム構築に貢献する。
まず、40言語を対象に、17,000時間の生音声データをキュレートする。
この生の音声データを用いて、40のインドの言語に対して、いくつかのwav2vecスタイルモデルを事前訓練する。
論文 参考訳(メタデータ) (2021-11-06T19:34:33Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - No Rumours Please! A Multi-Indic-Lingual Approach for COVID Fake-Tweet
Detection [4.411285005377513]
我々は、英語以外の複数のインデックス言語に対して、ツイートなどのソーシャルメディアから、早期に新型コロナウイルスに関する偽ニュースを検出するアプローチを提案する。
複数のIndic言語へのアプローチを拡大するために、ヒンディー語とベンガル語で生成されたデータセットを微調整したmBERTベースのモデルを使います。
我々の手法は89%の偽ツイート検出でFスコアに達し、その結果がSOTA(State-of-the-art)の結果に取って代わる。
論文 参考訳(メタデータ) (2020-10-14T09:37:51Z) - TICO-19: the Translation Initiative for Covid-19 [112.5601530395345]
COvid-19の翻訳イニシアチブ(TICO-19)は、テストおよび開発データを、35の異なる言語でAIおよびMT研究者に提供した。
同じデータが表現されているすべての言語に変換されるため、テストや開発は、セット内の任意の言語のペアリングに対して行うことができる。
論文 参考訳(メタデータ) (2020-07-03T16:26:17Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。