論文の概要: Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot
- arxiv url: http://arxiv.org/abs/2404.17216v1
- Date: Fri, 26 Apr 2024 07:44:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-29 13:44:15.354199
- Title: Prompting Towards Alleviating Code-Switched Data Scarcity in Under-Resourced Languages with GPT as a Pivot
- Title(参考訳): GPTをPivotとするUnder-Resourced言語におけるコードスイッチデータスカシティの緩和に向けたプロンプト
- Authors: Michelle Terblanche, Kayode Olaleye, Vukosi Marivate,
- Abstract要約: 本研究により, GPT 3.5は, 英語, よるば, 英語のコード変更文を生成することができた。
ヨルバのような非ラテン文字を用いた言語の文の質は、アフリカーンス英語の成功率と比較してかなり低い。
本稿では,GPTを用いた合成コードスイッチングデータの多様性向上のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 1.3741556944830366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many multilingual communities, including numerous in Africa, frequently engage in code-switching during conversations. This behaviour stresses the need for natural language processing technologies adept at processing code-switched text. However, data scarcity, particularly in African languages, poses a significant challenge, as many are low-resourced and under-represented. In this study, we prompted GPT 3.5 to generate Afrikaans--English and Yoruba--English code-switched sentences, enhancing diversity using topic-keyword pairs, linguistic guidelines, and few-shot examples. Our findings indicate that the quality of generated sentences for languages using non-Latin scripts, like Yoruba, is considerably lower when compared with the high Afrikaans-English success rate. There is therefore a notable opportunity to refine prompting guidelines to yield sentences suitable for the fine-tuning of language models. We propose a framework for augmenting the diversity of synthetically generated code-switched data using GPT and propose leveraging this technology to mitigate data scarcity in low-resourced languages, underscoring the essential role of native speakers in this process.
- Abstract(参考訳): アフリカの多くの人々を含む多くの多言語コミュニティは、会話中に頻繁にコード交換に従事している。
この振る舞いは、コード変更されたテキストを処理するのに適した自然言語処理技術の必要性を強調している。
しかし、特にアフリカの言語におけるデータ不足は、多くが低リソースで低表現であるため、大きな課題となっている。
本研究は, GPT 3.5に, 英語とヨルバ語で書かれた音声文を生成させ, 話題キーワードペア, 言語ガイドライン, 少数例を用いて多様性を高めた。
その結果,非ラテン文字を用いた言語における生成文の品質は,アフリカーンス英語の成功率と比較すると,かなり低いことがわかった。
したがって、言語モデルの微調整に適した文を提示するためのガイドラインを洗練させる重要な機会がある。
本稿では,GPTを用いた合成コードスイッチングデータの多様性向上のためのフレームワークを提案し,この技術を利用して低リソース言語におけるデータ不足を軽減し,本プロセスにおけるネイティブ話者の役割を浮き彫りにする。
関連論文リスト
- Prompt Engineering Using GPT for Word-Level Code-Mixed Language Identification in Low-Resource Dravidian Languages [0.0]
インドのような多言語社会では、テキストはしばしばコードミキシングを示し、異なる言語レベルで現地の言語と英語をブレンドする。
本稿では,Dravidian言語における単語レベルのLI課題への対処を目的とした,共有タスクのプロンプトベース手法を提案する。
本研究では,GPT-3.5 Turboを用いて,大言語モデルが単語を正しいカテゴリに分類できるかどうかを検証した。
論文 参考訳(メタデータ) (2024-11-06T16:20:37Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Bridging the Language Gap: Enhancing Multilingual Prompt-Based Code Generation in LLMs via Zero-Shot Cross-Lingual Transfer [5.355430735475281]
本稿では,多言語プロンプトベースのコード生成の複雑さについて検討する。
評価の結果,非英語のプロンプトにおけるコード品質の相違が明らかとなった。
本稿では,ニューラルプロジェクション手法を用いたゼロショット言語間アプローチを提案する。
論文 参考訳(メタデータ) (2024-08-19T05:11:46Z) - CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - Codeswitched Sentence Creation using Dependency Parsing [0.0]
コードスイッチングは、世界中の多言語話者にまたがる最も一般的な出来事の1つとなっている。
本稿では,英語文法の構文構造を利用して,英語・ヒンディー語・英語・マラティー語・英語・カンナダ語の文法的に意味のあるコード切替版を開発するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-05T10:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。