論文の概要: Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text
- arxiv url: http://arxiv.org/abs/2011.11263v2
- Date: Wed, 25 Nov 2020 13:22:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 01:18:56.558249
- Title: Evaluating Input Representation for Language Identification in
Hindi-English Code Mixed Text
- Title(参考訳): ヒンディー語混成テキストにおける言語識別のための入力表現の評価
- Authors: Ramchandra Joshi, Raviraj Joshi
- Abstract要約: コードミックステキストは複数の言語で書かれたテキストからなる。
人は自然に現地の言語と英語のようなグローバルな言語を組み合わせる傾向がある。
本研究では,ヒンディー語と英語の混成テキストのコード混成文における言語識別に着目した。
- 参考スコア(独自算出の注目度): 4.4904382374090765
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language processing (NLP) techniques have become mainstream in the
recent decade. Most of these advances are attributed to the processing of a
single language. More recently, with the extensive growth of social media
platforms focus has shifted to code-mixed text. The code-mixed text comprises
text written in more than one language. People naturally tend to combine local
language with global languages like English. To process such texts, current NLP
techniques are not sufficient. As a first step, the text is processed to
identify the language of the words in the text. In this work, we focus on
language identification in code-mixed sentences for Hindi-English mixed text.
The task of language identification is formulated as a token classification
task. In the supervised setting, each word in the sentence has an associated
language label. We evaluate different deep learning models and input
representation combinations for this task. Mainly, character, sub-word, and
word embeddings are considered in combination with CNN and LSTM based models.
We show that sub-word representation along with the LSTM model gives the best
results. In general sub-word representations perform significantly better than
other input representations. We report the best accuracy of 94.52% using a
single layer LSTM model on the standard SAIL ICON 2017 test set.
- Abstract(参考訳): 自然言語処理(NLP)技術は近年主流になりつつある。
これらの進歩のほとんどは、単一の言語の処理に起因する。
最近では、ソーシャルメディアプラットフォームの広範な成長に伴い、コード混合テキストに焦点が移っている。
コード混合テキストは、複数の言語で書かれたテキストを含む。
人々は自然に地元の言語と英語のようなグローバル言語を結合する傾向がある。
このようなテキストを処理するには、現在のNLP技術では不十分である。
最初のステップとして、テキスト内の単語の言語を特定するために、テキストが処理される。
本研究では,ヒンズー語と英語の混合テキストに対するコード混合文の言語識別に焦点をあてる。
言語識別タスクはトークン分類タスクとして定式化される。
教師付き設定では、文中の各単語は関連する言語ラベルを有する。
この課題に対して,異なるディープラーニングモデルと入力表現の組み合わせを評価した。
主に、文字、サブワード、単語の埋め込みは、CNNやLSTMベースのモデルと組み合わせて検討される。
lstmモデルと共にサブワード表現が最良の結果を与えることを示す。
一般にサブワード表現は、他の入力表現よりもかなりよく機能する。
標準SAIL ICON 2017テストセットの単一層LSTMモデルを用いて,94.52%の精度を報告した。
関連論文リスト
- Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili [29.252250069388687]
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
論文 参考訳(メタデータ) (2024-03-26T17:26:50Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts [0.0]
多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
論文 参考訳(メタデータ) (2022-11-17T19:16:56Z) - Language Identification of Hindi-English tweets using code-mixed BERT [0.0]
この研究は、ヒンディー語-英語-ウルドゥー語混成テキストのデータ収集を言語事前学習に利用し、ヒンディー語-英語混成テキストはその後の単語レベルの言語分類に利用している。
その結果、コードミックスデータ上で事前学習された表現は、モノリンガルデータによるより良い結果をもたらすことがわかった。
論文 参考訳(メタデータ) (2021-07-02T17:51:36Z) - A Simple and Efficient Probabilistic Language model for Code-Mixed Text [0.0]
コード混合テキストに対する効率的な単語埋め込みを構築するための単純な確率的アプローチを提案する。
双方向LSTMとSVMを用いた分類作業の有効性を検討した。
論文 参考訳(メタデータ) (2021-06-29T05:37:57Z) - Improving Pretrained Cross-Lingual Language Models via Self-Labeled Word
Alignment [49.45399359826453]
言語間の言語モデルは通常、多言語テキストやパラレル文の言語モデリングで事前訓練される。
本稿では,新たな言語間事前学習課題として認知単語アライメントを導入する。
実験結果から,本手法は各種データセットの言語間移動性を向上することが示された。
論文 参考訳(メタデータ) (2021-06-11T13:36:01Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - IIT Gandhinagar at SemEval-2020 Task 9: Code-Mixed Sentiment
Classification Using Candidate Sentence Generation and Selection [1.2301855531996841]
コードミキシングは、非標準の書き込みスタイルのためにテキストの感情を分析することの難しさを増す。
本稿では,Bi-LSTMに基づくニューラル分類器上での文生成と選択に基づく提案手法を提案する。
提案手法は,Bi-LSTMに基づくニューラル分類器と比較して,システム性能の向上を示す。
論文 参考訳(メタデータ) (2020-06-25T14:59:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。