論文の概要: NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet
- arxiv url: http://arxiv.org/abs/2010.07773v1
- Date: Thu, 15 Oct 2020 14:09:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 02:42:46.722847
- Title: NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet
- Title(参考訳): NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020:XLNetを用いたコードミクシングドラヴィディアンテキストの知覚分析
- Authors: Shubhanker Banerjee, Arun Jayapal and Sajeetha Thavareesan
- Abstract要約: ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。
会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。
このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。
本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Social media has penetrated into multilingual societies, however most of them
use English to be a preferred language for communication. So it looks natural
for them to mix their cultural language with English during conversations
resulting in abundance of multilingual data, call this code-mixed data,
available in todays' world.Downstream NLP tasks using such data is challenging
due to the semantic nature of it being spread across multiple languages.One
such Natural Language Processing task is sentiment analysis, for this we use an
auto-regressive XLNet model to perform sentiment analysis on code-mixed
Tamil-English and Malayalam-English datasets.
- Abstract(参考訳): ソーシャルメディアは多言語社会に浸透してきたが、そのほとんどは英語をコミュニケーションの優先言語として使っている。
So it looks natural for them to mix their cultural language with English during conversations resulting in abundance of multilingual data, call this code-mixed data, available in todays' world.Downstream NLP tasks using such data is challenging due to the semantic nature of it being spread across multiple languages.One such Natural Language Processing task is sentiment analysis, for this we use an auto-regressive XLNet model to perform sentiment analysis on code-mixed Tamil-English and Malayalam-English datasets.
関連論文リスト
- Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages [0.0]
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。
結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
論文 参考訳(メタデータ) (2021-11-15T16:57:59Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。