論文の概要: Marathi-English Code-mixed Text Generation
- arxiv url: http://arxiv.org/abs/2309.16202v1
- Date: Thu, 28 Sep 2023 06:51:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-29 15:48:51.393836
- Title: Marathi-English Code-mixed Text Generation
- Title(参考訳): Marathi- English Code-mixed Text Generation (英語)
- Authors: Dhiraj Amin, Sharvari Govilkar, Sagar Kulkarni, Yash Shashikant Lalit,
Arshi Ajaz Khwaja, Daries Xavier, Sahil Girijashankar Gupta
- Abstract要約: コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-mixing, the blending of linguistic elements from distinct languages to
form meaningful sentences, is common in multilingual settings, yielding hybrid
languages like Hinglish and Minglish. Marathi, India's third most spoken
language, often integrates English for precision and formality. Developing
code-mixed language systems, like Marathi-English (Minglish), faces resource
constraints. This research introduces a Marathi-English code-mixed text
generation algorithm, assessed with Code Mixing Index (CMI) and Degree of Code
Mixing (DCM) metrics. Across 2987 code-mixed questions, it achieved an average
CMI of 0.2 and an average DCM of 7.4, indicating effective and comprehensible
code-mixed sentences. These results offer potential for enhanced NLP tools,
bridging linguistic gaps in multilingual societies.
- Abstract(参考訳): コードミキシング(Code-mixing)は、異なる言語からの言語要素をブレンドして意味のある文を形成するもので、多言語設定で一般的であり、ヒングリッシュやミングリッシュのようなハイブリッド言語を生み出す。
インドで3番目に話される言語であるマラティー語は、精度と形式のために英語を統合することが多い。
Marathi-English (Minglish)のようなコード混合言語システムの開発は、リソース制約に直面している。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
2987のコードミックス質問では、平均CMIは0.2、平均DCMは7.4で、有効で理解可能なコードミックス文を示している。
これらの結果は、多言語社会における言語的ギャップを埋める、強化されたNLPツールの可能性をもたらす。
関連論文リスト
- Exploring Multi-Lingual Bias of Large Code Models in Code Generation [55.336629780101475]
コード生成は、自然言語(NL)仕様に基づいて、コードを合成し、機能要件を満たすことを目的としている。
有効性にもかかわらず、我々は大規模コードモデル(LCM)の生成性能において顕著な多言語バイアスを観察する。
LCMは、英語で指示を与えると解を生成する能力を示すが、中国語などの他のNLで意味論的に等価な命令に直面すると、失敗する可能性がある。
論文 参考訳(メタデータ) (2024-04-30T08:51:49Z) - IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages [62.60787450345489]
インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
論文 参考訳(メタデータ) (2023-11-21T07:50:53Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - BITS Pilani at HinglishEval: Quality Evaluation for Code-Mixed Hinglish
Text Using Transformers [1.181206257787103]
本稿では,システムによって生成されたコードミクシングテキストデータの品質に影響を及ぼす要因を明らかにすることを目的とする。
HinglishEvalタスクでは,多言語BERTを用いて合成文と人文の類似性を求める。
論文 参考訳(メタデータ) (2022-06-17T10:36:50Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - MIPE: A Metric Independent Pipeline for Effective Code-Mixed NLG
Evaluation [1.2559148369195197]
コードミキシング(Code-mixing)は、2つ以上の言語からの単語とフレーズを1つの発話で混合する現象である。
様々な一般的なメトリクスは、コードミキシングされたNLGタスクではうまく機能しない。
評価指標と人的判断の相関性を大幅に改善する指標独立評価パイプラインMIPEを提案する。
論文 参考訳(メタデータ) (2021-07-24T05:24:26Z) - HinGE: A Dataset for Generation and Evaluation of Code-Mixed Hinglish
Text [1.6675267471157407]
我々は、広く普及しているHinglish(ヒンディー語と英語のコードミキシング)のためのコーパス(HinGE)を提示する。
HinGEには、人間が生成するヒングリッシュ文と、平行なヒンディー語文に対応する2つのルールベースのアルゴリズムがある。
さらに,コード混合データ上で広く利用されている評価指標の有効性を実証した。
論文 参考訳(メタデータ) (2021-07-08T11:11:37Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - Word Level Language Identification in English Telugu Code Mixed Data [7.538482310185133]
現在、ICS(Intrasentential Code Switching)やCM(Code Mixing)が頻繁に見られる。
本稿では,Nav Bayes, Random Forest, Conditional Random Field (CRF), Hidden Markov Model (HMM) の3つのモデルについて述べる。
ベストパフォーマンスシステムは、f1スコア0.91のCRFベースです。
論文 参考訳(メタデータ) (2020-10-09T10:15:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。