論文の概要: Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages
- arxiv url: http://arxiv.org/abs/2303.13592v3
- Date: Thu, 7 Sep 2023 03:20:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:25:06.701670
- Title: Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages
- Title(参考訳): 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として
- Authors: Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Samuel
Cahyawijaya, Holy Lovenia, Genta Indra Winata, Lintang Sutawika, Jan
Christian Blaise Cruz, Long Phan, Yin Lin Tan, Thamar Solorio, Alham Fikri
Aji
- Abstract要約: 東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
- 参考スコア(独自算出の注目度): 46.52199017648192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While code-mixing is a common linguistic practice in many parts of the world,
collecting high-quality and low-cost code-mixed data remains a challenge for
natural language processing (NLP) research. The recent proliferation of Large
Language Models (LLMs) compels one to ask: how capable are these systems in
generating code-mixed data? In this paper, we explore prompting multilingual
LLMs in a zero-shot manner to generate code-mixed data for seven languages in
South East Asia (SEA), namely Indonesian, Malay, Chinese, Tagalog, Vietnamese,
Tamil, and Singlish. We find that publicly available multilingual
instruction-tuned models such as BLOOMZ and Flan-T5-XXL are incapable of
producing texts with phrases or clauses from different languages. ChatGPT
exhibits inconsistent capabilities in generating code-mixed texts, wherein its
performance varies depending on the prompt template and language pairing. For
instance, ChatGPT generates fluent and natural Singlish texts (an English-based
creole spoken in Singapore), but for English-Tamil language pair, the system
mostly produces grammatically incorrect or semantically meaningless utterances.
Furthermore, it may erroneously introduce languages not specified in the
prompt. Based on our investigation, existing multilingual LLMs exhibit a wide
range of proficiency in code-mixed data generation for SEA languages. As such,
we advise against using LLMs in this context without extensive human checks.
- Abstract(参考訳): コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。
大規模な言語モデル(llms)が最近普及したことにより,次のような疑問が生まれています。
本稿では,東南アジアの7カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,タミル語,シングリッシュ語)のコードミキシングデータを生成するため,ゼロショット方式で多言語 LLM を作成することを検討する。
BLOOMZ や Flan-T5-XXL のような多言語命令調整モデルでは,異なる言語から句や節を生成できないことがわかった。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示し、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
例えば、chatgptは英語ベースのクレオール(英語版)でシンガポールで話されている)が、英語とタミル語のペアでは、文法的に不正確または意味的に意味のない発話を生成することが多い。
さらに、プロンプトで指定されていない言語を誤って導入することもできる。
本研究により,既存の多言語 LLM は,SEA 言語用コード混合データ生成の幅広い習熟度を示す。
したがって、この文脈でのLSMの使用は、広範囲の人的チェックを伴わないようアドバイスする。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Code-Mixer Ya Nahi: Novel Approaches to Measuring Multilingual LLMs' Code-Mixing Capabilities [3.359458926468223]
Rule-Based Promptingは、コードミックス文を生成する新しいプロンプト技術である。
3つの多言語LLMの符号混合MT能力の測定と比較を行った。
また、$k$-shotプロンプトを使用して、多言語LLMの英語翻訳能力に混在するコードを測定する。
論文 参考訳(メタデータ) (2024-10-14T20:40:36Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Code-mixed Sentiment and Hate-speech Prediction [2.9140539998069803]
大規模言語モデルは、ほとんどの自然言語処理タスクを支配してきた。
我々は、英語・ヒンディー語・英語・スロベニア語用に、バイリンガルで事前訓練された4つのマスク付き言語モデルを作成しました。
複数の言語で単言語,バイリンガル,少数言語,大規模多言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-05-21T16:56:36Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien [5.272372029223681]
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホーキエン・マンダリンは中国系移民の中で最も広く使われている混成言語である。
本研究では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語群における形態的問題を克服し,効率的なHokkien 単語セグメンテーション法を提案する。
論文 参考訳(メタデータ) (2023-01-21T11:04:20Z) - CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts [0.0]
多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
論文 参考訳(メタデータ) (2022-11-17T19:16:56Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。