論文の概要: Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages
- arxiv url: http://arxiv.org/abs/2303.13592v2
- Date: Thu, 30 Mar 2023 14:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-03 16:32:24.818648
- Title: Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages
- Title(参考訳): 多言語大言語モデルによるコード混合テキスト生成の促進--東南アジア言語を事例として
- Authors: Zheng-Xin Yong, Ruochen Zhang, Jessica Zosa Forde, Skyler Wang, Samuel
Cahyawijaya, Holy Lovenia, Genta Indra Winata, Lintang Sutawika, Jan
Christian Blaise Cruz, Long Phan, Yin Lin Tan, Alham Fikri Aji
- Abstract要約: この記事では、東南アジアの5つの言語のためのコード混合データを作成するための多言語モデルについて検討する。
ChatGPTは、コードミキシング(code-mixing)という言葉が明示的に定義されている時間の68%をコードミキシング(code-mixing)で生成できる可能性が最も高いことを示している。
BLOOMZやFlan-T5-XXLのような他の多言語モデルは、コードミキシングされたテキストを全く生成できない。
- 参考スコア(独自算出の注目度): 17.837740858302215
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While code-mixing is a common linguistic practice in many parts of the world,
collecting high-quality and low-cost code-mixed data remains a challenge for
natural language processing (NLP) research. The proliferation of Large Language
Models (LLMs) in recent times compels one to ask: can these systems be used for
data generation? In this article, we explore prompting multilingual LLMs in a
zero-shot manner to create code-mixed data for five languages in South East
Asia (SEA) -- Indonesian, Malay, Chinese, Tagalog, Vietnamese, as well as the
creole language Singlish. We find that ChatGPT shows the most potential,
capable of producing code-mixed text 68% of the time when the term
"code-mixing" is explicitly defined. Moreover, both ChatGPT's and InstructGPT's
(davinci-003) performances in generating Singlish texts are noteworthy,
averaging a 96% success rate across a variety of prompts. Their code-mixing
proficiency, however, is dampened by word choice errors that lead to semantic
inaccuracies. Other multilingual models such as BLOOMZ and Flan-T5-XXL are
unable to produce code-mixed texts altogether. By highlighting the limited
promises of LLMs in a specific form of low-resource data generation, we call
for a measured approach when applying similar techniques to other data-scarce
NLP contexts.
- Abstract(参考訳): コードミキシングは世界中の多くの地域で一般的であるが、高品質で低コストのコードミキシングデータを集めることは自然言語処理(NLP)研究の課題である。
近年のLarge Language Models(LLM)の普及は、次のような質問を補完している。
本稿では,東南アジアの5カ国語(インドネシア語,マレー語,中国語,タガログ語,ベトナム語,クレオール語,シングリッシュ語)のコードミックスデータを作成するため,ゼロショット方式の多言語 LLM の推進について検討する。
コードミキシング」という言葉が明示的に定義されている時間の68%をコードミキシングで生成できるChatGPTが最も可能性を示す。
さらに、ChatGPTとInstructGPTの両方のパフォーマンス(davinci-003)も注目すべきであり、様々なプロンプトで平均96%の成功率である。
しかし、それらのコード混合能力は、意味的不正確性につながる単語選択エラーによって弱められている。
bloomzやflan-t5-xxlのような他の多言語モデルは、コード混合テキストを全く生成できない。
低リソースデータ生成の特定の形式でのLLMの限られた約束を強調することにより、同様の手法を他のデータ共有NLPコンテキストに適用する際の計測アプローチを求める。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Code-Mixer Ya Nahi: Novel Approaches to Measuring Multilingual LLMs' Code-Mixing Capabilities [3.359458926468223]
Rule-Based Promptingは、コードミックス文を生成する新しいプロンプト技術である。
3つの多言語LLMの符号混合MT能力の測定と比較を行った。
また、$k$-shotプロンプトを使用して、多言語LLMの英語翻訳能力に混在するコードを測定する。
論文 参考訳(メタデータ) (2024-10-14T20:40:36Z) - Understanding and Mitigating Language Confusion in LLMs [76.96033035093204]
我々は,既存の英語および多言語プロンプトを用いた15の型的多様言語の評価を行った。
Llama Instruct と Mistral のモデルでは,言語的混乱の度合いが高いことがわかった。
言語混乱は,数発のプロンプト,多言語SFT,選好調整によって部分的に緩和できることがわかった。
論文 参考訳(メタデータ) (2024-06-28T17:03:51Z) - Code-mixed Sentiment and Hate-speech Prediction [2.9140539998069803]
大規模言語モデルは、ほとんどの自然言語処理タスクを支配してきた。
我々は、英語・ヒンディー語・英語・スロベニア語用に、バイリンガルで事前訓練された4つのマスク付き言語モデルを作成しました。
複数の言語で単言語,バイリンガル,少数言語,大規模多言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-05-21T16:56:36Z) - MYTE: Morphology-Driven Byte Encoding for Better and Fairer Multilingual Language Modeling [70.34758460372629]
多様な言語にまたがる一貫した大きさのセグメントで同一情報をエンコードする新しいパラダイムを導入する。
MYTEは99の言語すべてに対して短いエンコーディングを生成する。
これにより、多言語LMの性能が向上し、多言語間でのパープレキシティギャップが減少する。
論文 参考訳(メタデータ) (2024-03-15T21:21:11Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien [5.272372029223681]
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホーキエン・マンダリンは中国系移民の中で最も広く使われている混成言語である。
本研究では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語群における形態的問題を克服し,効率的なHokkien 単語セグメンテーション法を提案する。
論文 参考訳(メタデータ) (2023-01-21T11:04:20Z) - CoLI-Machine Learning Approaches for Code-mixed Language Identification
at the Word Level in Kannada-English Texts [0.0]
多くのインド人、特に若者はヒンディー語や英語に慣れているため、ソーシャルメディアにコメントを投稿するために複数の言語を使うことが多い。
コードミキシングされたKn-EnテキストはYouTubeビデオコメントから抽出され、CoLI-KenglishデータセットとコードミキシングされたKn-En埋め込みを構築する。
CoLI-Kenglishデータセットの単語は、"Kannada"、" English"、"Mixed-lang"、"Name"、"Location"、"その他"の6つの主要なカテゴリに分類される。
論文 参考訳(メタデータ) (2022-11-17T19:16:56Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。