論文の概要: IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages
- arxiv url: http://arxiv.org/abs/2311.12405v1
- Date: Tue, 21 Nov 2023 07:50:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 01:43:58.210275
- Title: IndoRobusta: Towards Robustness Against Diverse Code-Mixed Indonesian
Local Languages
- Title(参考訳): IndoRobusta: インドネシアの多言語共通言語に対するロバスト性を目指して
- Authors: Muhammad Farid Adilazuarda, Samuel Cahyawijaya, Genta Indra Winata,
Pascale Fung, Ayu Purwarianti
- Abstract要約: インドネシア語で4つの組込み言語、すなわち英語、スンダ語、ジャワ語、マレー語のコードミキシングについて検討する。
我々の分析は、事前学習されたコーパスバイアスが、インドネシアと英語のコードミキシングをよりうまく処理するモデルの能力に影響することを示している。
- 参考スコア(独自算出の注目度): 62.60787450345489
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Significant progress has been made on Indonesian NLP. Nevertheless,
exploration of the code-mixing phenomenon in Indonesian is limited, despite
many languages being frequently mixed with Indonesian in daily conversation. In
this work, we explore code-mixing in Indonesian with four embedded languages,
i.e., English, Sundanese, Javanese, and Malay; and introduce IndoRobusta, a
framework to evaluate and improve the code-mixing robustness. Our analysis
shows that the pre-training corpus bias affects the model's ability to better
handle Indonesian-English code-mixing when compared to other local languages,
despite having higher language diversity.
- Abstract(参考訳): インドネシアのNLPは大きな進歩を遂げた。
それにもかかわらず、インドネシアにおけるコード混合現象の探求は限定的であるが、多くの言語は日々の会話でインドネシア語と頻繁に混合されている。
本稿では,インドネシアにおける4つの組込み言語(英語,サンダン語,ジャワ語,マレー語)によるコード混合について検討し,コード混合の堅牢性を評価し,改善するためのフレームワークであるindorobustaを紹介する。
分析の結果,学習前のコーパスバイアスは,言語多様性が高いにもかかわらず,他の言語と比較してインドネシア語と英語のコードミキシングをうまく扱う能力に影響を及ぼすことがわかった。
関連論文リスト
- Code-mixed Sentiment and Hate-speech Prediction [2.9140539998069803]
大規模言語モデルは、ほとんどの自然言語処理タスクを支配してきた。
我々は、英語・ヒンディー語・英語・スロベニア語用に、バイリンガルで事前訓練された4つのマスク付き言語モデルを作成しました。
複数の言語で単言語,バイリンガル,少数言語,大規模多言語モデルの評価を行った。
論文 参考訳(メタデータ) (2024-05-21T16:56:36Z) - Cendol: Open Instruction-tuned Generative Large Language Models for Indonesian Languages [55.963648108438555]
大規模言語モデル(LLM)は、様々なドメインや言語で顕著な人間のような能力を示す。
我々は、デコーダのみとエンコーダ-デコーダアーキテクチャの両方を含むインドネシアのLLMのコレクションであるCendolを紹介する。
さまざまなタスクにまたがってCendolの有効性を強調し、20%の改善を実現し、その一般化能力を実証した。
論文 参考訳(メタデータ) (2024-04-09T09:04:30Z) - Marathi-English Code-mixed Text Generation [0.0]
コードミキシング(Code-mixing)とは、異なる言語から意味のある文を作るための言語要素のブレンドである。
本研究では、CMI(Code Mixing Index)とDCM(Degree of Code Mixing)メトリクスを用いて評価した、マラタイ英語のコードミックステキスト生成アルゴリズムを紹介する。
論文 参考訳(メタデータ) (2023-09-28T06:51:26Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Exploring Methods for Building Dialects-Mandarin Code-Mixing Corpora: A
Case Study in Taiwanese Hokkien [5.272372029223681]
シンガポール、インドネシア、マレーシアなどの東南アジア諸国では、ホーキエン・マンダリンは中国系移民の中で最も広く使われている混成言語である。
本研究では,Hokkien-Mandarin CMデータセットの構築手法を提案し,その制限を緩和し,Sino-Tibetan 言語群における形態的問題を克服し,効率的なHokkien 単語セグメンテーション法を提案する。
論文 参考訳(メタデータ) (2023-01-21T11:04:20Z) - NusaX: Multilingual Parallel Sentiment Dataset for 10 Indonesian Local
Languages [100.59889279607432]
インドネシアにおける言語の資源開発に重点を置いている。
インドネシアのほとんどの言語は絶滅危惧種に分類され、一部は絶滅している。
インドネシアで10の低リソース言語を対象とした,最初の並列リソースを開発した。
論文 参考訳(メタデータ) (2022-05-31T17:03:50Z) - MCoNaLa: A Benchmark for Code Generation from Multiple Natural Languages [76.93265104421559]
英語以外の自然言語コマンドからコード生成をベンチマークします。
スペイン語,日本語,ロシア語の3言語で896個のNLコードペアを注釈した。
難易度はこれらの3つの言語によって異なるが、全てのシステムは英語にかなり遅れている。
論文 参考訳(メタデータ) (2022-03-16T04:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。