論文の概要: IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages
- arxiv url: http://arxiv.org/abs/2111.07906v1
- Date: Mon, 15 Nov 2021 16:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-16 19:09:30.760219
- Title: IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages
- Title(参考訳): iiitt@dravidian-codemix-fire2021: transliterate or translate?
Dravidian言語におけるコード混合テキストの知覚分析
- Authors: Karthik Puranik, Bharathi B, Senthil Kumar B
- Abstract要約: 本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。
結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Sentiment analysis of social media posts and comments for various marketing
and emotional purposes is gaining recognition. With the increasing presence of
code-mixed content in various native languages, there is a need for ardent
research to produce promising results. This research paper bestows a tiny
contribution to this research in the form of sentiment analysis of code-mixed
social media comments in the popular Dravidian languages Kannada, Tamil and
Malayalam. It describes the work for the shared task conducted by
Dravidian-CodeMix at FIRE 2021 by employing pre-trained models like ULMFiT and
multilingual BERT fine-tuned on the code-mixed dataset, transliteration (TRAI)
of the same, English translations (TRAA) of the TRAI data and the combination
of all the three. The results are recorded in this research paper where the
best models stood 4th, 5th and 10th ranks in the Tamil, Kannada and Malayalam
tasks respectively.
- Abstract(参考訳): 様々なマーケティングや感情的目的のためのソーシャルメディア投稿やコメントの感情分析が認識されている。
様々なネイティブ言語におけるコードミックスコンテンツの存在の増加に伴い、有望な結果を生み出すために熱心な研究が必要である。
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMixが行った共有タスクの作業について、ULMFiTや多言語BERTのような訓練済みのモデルを用いて、コードミックスデータセットに微調整、同一のTRAI(TRAI)、TRAIデータの英訳(TRAA)、およびこれら3つの組み合わせを用いて記述する。
本研究報告では,タミル,カンナダ,マラヤラムの各タスクにおいて,ベストモデルがそれぞれ4位,5位,10位であった。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - The Effect of Normalization for Bi-directional Amharic-English Neural
Machine Translation [53.907805815477126]
本稿では,比較的大規模なアムハラ語-英語並列文データセットを提案する。
我々は、既存のFacebook M2M100事前学習モデルを微調整することで、双方向のアムハラ語翻訳モデルを構築する。
その結果, 両方向のアンハラ語・英語機械翻訳の性能は, アンハラ語ホモホン文字の正規化により向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-27T07:18:53Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - CMSAOne@Dravidian-CodeMix-FIRE2020: A Meta Embedding and Transformer
model for Code-Mixed Sentiment Analysis on Social Media Text [9.23545668304066]
コードミックス(CM)は、発話や文で複数の言語を使用する頻繁に観察される現象です。
感性分析(SA)はNLPの基本的なステップであり、モノリンガルテキストでよく研究されている。
本稿では,dravidian code-mixedデータセット上での感情分析のためのトランスフォーマによるメタ埋め込みを提案する。
論文 参考訳(メタデータ) (2021-01-22T08:48:27Z) - NUIG-Shubhanker@Dravidian-CodeMix-FIRE2020: Sentiment Analysis of
Code-Mixed Dravidian text using XLNet [0.0]
ソーシャルメディアは多言語社会に浸透してきたが、その多くは英語をコミュニケーションの言語として好んでいる。
会話中に文化的な言語と英語を混ぜることで、多言語データが多くなり、今日の世界で利用できるこのコード混在データと呼ぶのは自然なことです。
このようなデータを用いた下流NLPタスクは、複数の言語にまたがるセマンティックな性質のため、難しい。
本稿では,自動回帰XLNetモデルを用いて,タミル・イングリッシュとマラヤラム・イングリッシュ・データセットの感情分析を行う。
論文 参考訳(メタデータ) (2020-10-15T14:09:02Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A Sentiment Analysis Dataset for Code-Mixed Malayalam-English [0.8454131372606295]
本稿では,マラヤラム英語のコードミキシングテキストの感情分析のためのゴールドスタンダードコーパスを提案する。
我々はこのコーパスを用いて、マラヤラム英語のコードミックステキストの感情分析のベンチマークを提供する。
論文 参考訳(メタデータ) (2020-05-30T07:32:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。