論文の概要: CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts
- arxiv url: http://arxiv.org/abs/2211.09847v1
- Date: Thu, 17 Nov 2022 19:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 13:40:29.581900
- Title: CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts
- Title(参考訳): コロンビア・マシン・ラーニングによるカンナダ英語テキストの単語レベルでのコード混合言語識別
- Authors: H.L. Shashirekha and F. Balouchzahi and M.D. Anusha and G. Sidorov
- Abstract要約: 多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The task of automatically identifying a language used in a given text is
called Language Identification (LI). India is a multilingual country and many
Indians especially youths are comfortable with Hindi and English, in addition
to their local languages. Hence, they often use more than one language to post
their comments on social media. Texts containing more than one language are
called "code-mixed texts" and are a good source of input for LI. Languages in
these texts may be mixed at sentence level, word level or even at sub-word
level. LI at word level is a sequence labeling problem where each and every
word in a sentence is tagged with one of the languages in the predefined set of
languages. In order to address word level LI in code-mixed Kannada-English
(Kn-En) texts, this work presents i) the construction of code-mixed Kn-En
dataset called CoLI-Kenglish dataset, ii) code-mixed Kn-En embedding and iii)
learning models using Machine Learning (ML), Deep Learning (DL) and Transfer
Learning (TL) approaches. Code-mixed Kn-En texts are extracted from Kannada
YouTube video comments to construct CoLI-Kenglish dataset and code-mixed Kn-En
embedding. The words in CoLI-Kenglish dataset are grouped into six major
categories, namely, "Kannada", "English", "Mixed-language", "Name", "Location"
and "Other". The learning models, namely, CoLI-vectors and CoLI-ngrams based on
ML, CoLI-BiLSTM based on DL and CoLI-ULMFiT based on TL approaches are built
and evaluated using CoLI-Kenglish dataset. The performances of the learning
models illustrated, the superiority of CoLI-ngrams model, compared to other
models with a macro average F1-score of 0.64. However, the results of all the
learning models were quite competitive with each other.
- Abstract(参考訳): 与えられたテキストで使用される言語を自動的に識別するタスクはLanguage Identification (LI)と呼ばれる。
インドは多言語国であり、多くのインド人、特に若者はヒンディー語や英語に慣れている。
そのため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
複数の言語を含むテキストは"code-mixed texts"と呼ばれ、LIにとって良い入力源である。
これらのテキストの言語は、文レベル、単語レベル、さらにはサブワードレベルで混合される。
単語レベルでのLIは、文中の各単語が予め定義された言語の1つの言語でタグ付けされるシーケンスラベリング問題である。
コード・ミックス・カンナダ・イングリッシュ(kn-en)テキストにおける単語レベルliの対応について述べる。
i)CoLI-Kenglishデータセットと呼ばれるコード混合Kn-Enデータセットの構築
二 コード混合Kn-En埋め込み及び
三 機械学習(ML)、Deep Learning(DL)、Transfer Learning(TL)アプローチを用いた学習モデル。
コードミックスKn-Enテキストは、Kannada YouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミックスKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"Other"の6つの主要なカテゴリに分類される。
学習モデル、すなわち、MLに基づくCoLI-vectorとCoLI-ngram、DLに基づくCoLI-BiLSTM、TLアプローチに基づくCoLI-ULMFiTを構築し、CoLI-Kenglishデータセットを用いて評価する。
学習モデルの性能は,マクロ平均F1スコア0.64の他のモデルと比較して,CoLI-ngramsモデルの方が優れていた。
しかし、すべての学習モデルの結果は互いに非常に競合していた。
関連論文リスト
- Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for
Cross-lingual Text-to-SQL Semantic Parsing [70.40401197026925]
大規模言語モデルを用いたインコンテキスト学習は、最近セマンティック解析タスクの驚くべき結果を示している。
この研究は、あるクエリに対して関連する英語の例を検索する学習を行うXRICLフレームワークを導入している。
また、大規模言語モデルの翻訳プロセスを容易にするために、対象言語に対するグローバルな翻訳例も含んでいる。
論文 参考訳(メタデータ) (2022-10-25T01:33:49Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text [4.4904382374090765]
コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
論文 参考訳(メタデータ) (2020-11-23T08:08:09Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Multi-SimLex: A Large-Scale Evaluation of Multilingual and Cross-Lingual
Lexical Semantic Similarity [67.36239720463657]
Multi-SimLexは、12の異なる言語のデータセットをカバーする大規模な語彙リソースと評価ベンチマークである。
各言語データセットは、意味的類似性の語彙的関係に注釈付けされ、1,888のセマンティック・アライメント・コンセプト・ペアを含む。
言語間の概念の整合性のため、66の言語間セマンティック類似性データセットを提供する。
論文 参考訳(メタデータ) (2020-03-10T17:17:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。