論文の概要: Findings of the Sentiment Analysis of Dravidian Languages in Code-Mixed
Text
- arxiv url: http://arxiv.org/abs/2111.09811v1
- Date: Thu, 18 Nov 2021 17:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-19 17:15:11.681486
- Title: Findings of the Sentiment Analysis of Dravidian Languages in Code-Mixed
Text
- Title(参考訳): コードミキシングテキストにおけるドラビディアン言語の感性分析の発見
- Authors: Bharathi Raja Chakravarthi and Ruba Priyadharshini and Sajeetha
Thavareesan and Dhivya Chinnappa and Durairaj Thenmozhi and Elizabeth Sherly
and John P. McCrae and Adeep Hande and Rahul Ponnusamy and Shubhanker
Banerjee and Charangan Vasantharajan
- Abstract要約: FIRE 2021で開催されているDravidian-CodeMix共有タスクの結果を示す。
タスク、その組織、および提出されたシステムについて説明する。
タミル・イングリッシュ、マラヤラム・イングリッシュ、カナダ・イングリッシュの上位システムは、それぞれ0.711、0.804、0.630の重み付きF1スコアを記録した。
- 参考スコア(独自算出の注目度): 3.216148364146325
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present the results of the Dravidian-CodeMix shared task held at FIRE
2021, a track on sentiment analysis for Dravidian Languages in Code-Mixed Text.
We describe the task, its organization, and the submitted systems. This shared
task is the continuation of last year's Dravidian-CodeMix shared task held at
FIRE 2020. This year's tasks included code-mixing at the intra-token and
inter-token levels. Additionally, apart from Tamil and Malayalam, Kannada was
also introduced. We received 22 systems for Tamil-English, 15 systems for
Malayalam-English, and 15 for Kannada-English. The top system for
Tamil-English, Malayalam-English and Kannada-English scored weighted average
F1-score of 0.711, 0.804, and 0.630, respectively. In summary, the quality and
quantity of the submission show that there is great interest in Dravidian
languages in code-mixed setting and state of the art in this domain still needs
more improvement.
- Abstract(参考訳): FIRE 2021で実施したDravidian-CodeMix共有タスクの結果を,Code-Mixed TextにおけるDravidian言語に対する感情分析のトラックとして提示する。
タスク、その組織、および提出されたシステムについて説明する。
この共有タスクは、FIRE 2020で開催されている昨年のDravidian-CodeMix共有タスクの継続である。
今年のタスクは、トケン内とトケン間のレベルのコード混合だった。
さらに、タミル語とマラヤラム語を除いて、カンナダ語も導入された。
タミル語では22のシステム、マラヤラム語では15のシステム、カンナダ語では15のシステムを受け取りました。
タミル・イングリッシュ、マラヤラム・イングリッシュ、カナダ・イングリッシュの上位システムは、それぞれ0.711、0.804、0.630である。
要約すると、提出内容の品質と量は、コード混合設定におけるドラビダ言語に対する大きな関心と、このドメインにおける最先端技術にはまだ改善が必要であることを示している。
関連論文リスト
- IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - Findings of the WMT 2023 Shared Task on Discourse-Level Literary
Translation: A Fresh Orb in the Cosmos of LLMs [80.05205710881789]
我々は、著作権と文書レベルの中国英語ウェブ小説コーパスをリリースする。
今年は7つのアカデミックチームと業界チームから14の応募を受け取りました。
システムの公式ランキングは、全体的な人間の判断に基づいている。
論文 参考訳(メタデータ) (2023-11-06T14:23:49Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - MIA 2022 Shared Task: Evaluating Cross-lingual Open-Retrieval Question
Answering for 16 Diverse Languages [54.002969723086075]
16言語に類型的に多様である言語における言語横断的オープン-検索型問合せシステムの評価を行った。
反復的にマイニングされた多様な負の例を利用する最良のシステムは32.2 F1となり、ベースラインを4.5ポイント上回る。
第2のベストシステムは文書検索にエンティティを意識した文脈表現を使用し、タミル(20.8 F1)の大幅な改善を実現している。
論文 参考訳(メタデータ) (2022-07-02T06:54:10Z) - IIITDWD-ShankarB@ Dravidian-CodeMixi-HASOC2021: mBERT based model for
identification of offensive content in south Indian languages [0.0]
第1タスクはマラヤラムのデータにおける攻撃的内容の特定であり、第2タスクはマラヤラムとタミル・コード混成文を含む。
我がチームは第2タスクに参加した。
提案モデルでは,多言語BERTを用いて特徴抽出を行い,特徴抽出に3つの異なる分類器を用いた。
論文 参考訳(メタデータ) (2022-04-13T06:24:57Z) - IIITT@Dravidian-CodeMix-FIRE2021: Transliterate or translate? Sentiment
analysis of code-mixed text in Dravidian languages [0.0]
本研究は,カナダ語,タミル語,マラヤラム語において,コードミキシングによるソーシャルメディアコメントの感情分析という形で,この研究に小さな貢献をしている。
FIRE 2021でDravidian-CodeMix氏が行った共有タスクの作業について説明している。
結果は,タミル,カナダ,マラヤラムの各タスクにおいて,最良モデルが4位,第5位,第10位であった研究論文に記録されている。
論文 参考訳(メタデータ) (2021-11-15T16:57:59Z) - DravidianCodeMix: Sentiment Analysis and Offensive Language
Identification Dataset for Dravidian Languages in Code-Mixed Text [0.9738927161150494]
データセットは、タミル語で約44,000のコメント、カナダ語で約7000のコメント、マラヤ語で約20,000のコメントで構成されている。
このデータはボランティアアノテータによって手動で注釈付けされ、クリッペンドルフのアルファ版では高いアノテータ間合意が結ばれている。
論文 参考訳(メタデータ) (2021-06-17T13:13:26Z) - WLV-RIT at HASOC-Dravidian-CodeMix-FIRE2020: Offensive Language
Identification in Code-switched YouTube Comments [16.938836887702923]
本稿では,インド・ヨーロッパ語におけるHate Speech and Offensive Content IdentificationのWLV-RITエントリについて述べる。
HASOC 2020の主催者は、ドラヴィダ語(マラヤラム語とタミル語)で混在するコードのソーシャルメディア投稿を含むデータセットを参加者に提供した。
テストセットの平均F1スコアは89.89で,12名中5位にランクインした。
論文 参考訳(メタデータ) (2020-11-01T16:52:08Z) - Gauravarora@HASOC-Dravidian-CodeMix-FIRE2020: Pre-training ULMFiT on
Synthetically Generated Code-Mixed Data for Hate Speech Detection [0.0]
本稿では,ドラヴィダ語におけるHate Speech and Offensive Content Identification in Dravidian Language (Tamil-British and Malayalam-British)について述べる。
このタスクは、ソーシャルメディアから収集されたDravidian言語におけるコメント/ポストのコード混合データセットにおける攻撃的言語を特定することを目的としている。
論文 参考訳(メタデータ) (2020-10-05T15:25:47Z) - Enhanced Universal Dependency Parsing with Second-Order Inference and
Mixture of Training Data [48.8386313914471]
本稿では,テキストIWPT 2020共有タスクに使用するシステムについて述べる。
低リソースのタミルコーパスでは、タミルの訓練データを他の言語と特別に混合し、タミルの性能を大幅に改善する。
論文 参考訳(メタデータ) (2020-06-02T06:42:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。