論文の概要: Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien
- arxiv url: http://arxiv.org/abs/2301.08937v1
- Date: Sat, 21 Jan 2023 11:04:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-24 15:39:41.855868
- Title: Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien
- Title(参考訳): 方言・マンダリン符号ミキシングコーパスの構築方法:台湾北紀園を事例として
- Authors: Sin-En Lu, Bo-Han Lu, Chao-Yi Lu, Richard Tzong-Han Tsai
- Abstract要約: シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホーキエン・マンダリンは中国系移民の中で最も広く使われている混成言語である。
本研究では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語群における形態的問題を克服し,効率的なHokkien 単語セグメンテーション法を提案する。
- 参考スコア(独自算出の注目度): 5.272372029223681
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In natural language processing (NLP), code-mixing (CM) is a challenging task,
especially when the mixed languages include dialects. In Southeast Asian
countries such as Singapore, Indonesia, and Malaysia, Hokkien-Mandarin is the
most widespread code-mixed language pair among Chinese immigrants, and it is
also common in Taiwan. However, dialects such as Hokkien often have a scarcity
of resources and the lack of an official writing system, limiting the
development of dialect CM research. In this paper, we propose a method to
construct a Hokkien-Mandarin CM dataset to mitigate the limitation, overcome
the morphological issue under the Sino-Tibetan language family, and offer an
efficient Hokkien word segmentation method through a linguistics-based toolkit.
Furthermore, we use our proposed dataset and employ transfer learning to train
the XLM (cross-lingual language model) for translation tasks. To fit the
code-mixing scenario, we adapt XLM slightly. We found that by using linguistic
knowledge, rules, and language tags, the model produces good results on CM data
translation while maintaining monolingual translation quality.
- Abstract(参考訳): 自然言語処理(NLP)では、特に混合言語が方言を含む場合、コードミキシング(CM)は難しい課題である。
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホッキン=マンダリンは中国系移民の間で最も広く使われているコード混合言語であり、台湾でも一般的である。
しかし、ホッキエンのような方言は資源の不足や公式な表記体系の欠如がしばしばあり、方言CM研究の発展を制限している。
本稿では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語族における形態的問題を克服し,言語ベースのツールキットによる効率的なHokkien 単語セグメンテーション手法を提案する。
さらに,提案するデータセットを用いてxlm(cross-lingual language model)の翻訳タスクを学習する。
コードミキシングのシナリオに適合するため、XLMを少し適応させます。
言語知識,ルール,言語タグを用いることで,単言語翻訳の品質を維持しつつ,CMデータ翻訳において良好な結果が得られることがわかった。
関連論文リスト
- IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts [0.0]
多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
論文 参考訳(メタデータ) (2022-11-17T19:16:56Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Word Level Language Identification in English Telugu Code Mixed Data [7.538482310185133]
現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
論文 参考訳(メタデータ) (2020-10-09T10:15:06Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Can Multilingual Language Models Transfer to an Unseen Dialect? A Case
Study on North African Arabizi [2.76240219662896]
本研究では,多言語モデルによる未知の方言の処理能力について検討する。
弊社のケーススタディは、北アフリカアラビアのユーザ生成を例に挙げる。
ゼロショットおよび教師なし適応シナリオでは、多言語言語モデルがそのような未知の方言に変換できることが示される。
論文 参考訳(メタデータ) (2020-05-01T11:29:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。