論文の概要: Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring Data
- arxiv url: http://arxiv.org/abs/2502.12924v1
- Date: Tue, 18 Feb 2025 15:04:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-19 14:08:38.762962
- Title: Conditioning LLMs to Generate Code-Switched Text: A Methodology Grounded in Naturally Occurring Data
- Title(参考訳): コードスイッチトテキスト生成のためのLCMの条件付け:自然発生データに基づく手法
- Authors: Maite Heredia, Gorka Labaka, Jeremy Barnes, Aitor Soroa,
- Abstract要約: コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。
本稿では,大規模言語モデル(LLM)を用いたCSデータ生成手法を提案する。
そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
- 参考スコア(独自算出の注目度): 21.240439045909724
- License:
- Abstract: Code-switching (CS) is still a critical challenge in Natural Language Processing (NLP). Current Large Language Models (LLMs) struggle to interpret and generate code-switched text, primarily due to the scarcity of large-scale CS datasets for training. This paper presents a novel methodology to generate CS data using LLMs, and test it on the English-Spanish language pair. We propose back-translating natural CS sentences into monolingual English, and using the resulting parallel corpus to fine-tune LLMs to turn monolingual sentences into CS. Unlike previous approaches to CS generation, our methodology uses natural CS data as a starting point, allowing models to learn its natural distribution beyond grammatical patterns. We thoroughly analyse the models' performance through a study on human preferences, a qualitative error analysis and an evaluation with popular automatic metrics. Results show that our methodology generates fluent code-switched text, expanding research opportunities in CS communication, and that traditional metrics do not correlate with human judgement when assessing the quality of the generated CS data. We release our code and generated dataset under a CC-BY-NC-SA license.
- Abstract(参考訳): コードスイッチング(CS)は、自然言語処理(NLP)において依然として重要な課題である。
現在のLarge Language Models(LLMs)は、トレーニング用の大規模なCSデータセットが不足していることから、コードスイッチトされたテキストの解釈と生成に苦労している。
本稿では,LSMを用いてCSデータを生成し,それを英語とスペイン語のペアで検証する新しい手法を提案する。
そこで本研究では,自然なCS文をモノリンガル・イングリッシュに逆翻訳し,並列コーパスを用いて微調整し,モノリンガル・センテンスをCSに変換する手法を提案する。
従来のCS生成手法とは異なり,本手法は自然なCSデータを出発点として使用し,文法的なパターンを超えた自然な分布を学習することができる。
本研究では,人間の嗜好や定性的誤り分析,一般的な自動指標による評価などを通じて,モデルの性能を徹底的に分析する。
その結果,提案手法は,CS通信における研究機会を拡大し,CSデータの品質を評価する際に,従来の指標と人間の判断が相関しないことが示唆された。
CC-BY-NC-SAライセンスの下でコードとデータセットを生成します。
関連論文リスト
- Linguistics Theory Meets LLM: Code-Switched Text Generation via Equivalence Constrained Large Language Models [16.82812708514889]
1つの会話で2つ以上の言語を交互に交互に行うコードスイッチングは、自然言語処理(NLP)に特有の課題を提示する
既存の研究は構文的制約やニューラルジェネレーションに重点を置いており、言語理論を言語モデル(LLM)と統合して自然なコード変更テキストを生成する努力はほとんどない。
等価制約理論(ECT)とLLMを組み合わせた新しいフレームワークであるEZSwitchを導入する。
論文 参考訳(メタデータ) (2024-10-30T03:03:32Z) - LLM-based Code-Switched Text Generation for Grammatical Error Correction [3.4457319208816224]
本研究では,文法的誤り訂正システムをコードスイッチング(CSW)テキストに適用する複雑性について検討する。
我々は、第二言語学習者として、英語のCSWデータセットから最先端のECCシステムを評価する。
単言語テキストとCSWテキストの文法的誤りを補正できるモデルを開発する。
論文 参考訳(メタデータ) (2024-10-14T10:07:29Z) - Code-Mixed Probes Show How Pre-Trained Models Generalise On Code-Switched Text [1.9185059111021852]
事前学習された言語モデルが3次元のコードスイッチトテキストをどのように扱うかを検討する。
その結果,事前学習した言語モデルは,コードスイッチトテキストへの一般化に有効であることが判明した。
論文 参考訳(メタデータ) (2024-03-07T19:46:03Z) - Code Needs Comments: Enhancing Code LLMs with Comment Augmentation [91.52444946362547]
本稿では、既存のコードに対するコメントを生成する新しいデータ拡張手法と、自然言語と相関の低いコードデータをフィルタリングするデータフィルタリング戦略を導入する。
我々は3つのコード中心の大規模言語モデルの実験を行い、2つの広く使われているプログラミングスキルベンチマークで一貫した性能向上を観察した。
論文 参考訳(メタデータ) (2024-02-20T13:56:38Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Summarize and Generate to Back-translate: Unsupervised Translation of
Programming Languages [86.08359401867577]
バックトランスレーションは、並列データがほとんど、あるいは全く利用できない場合のニューラルマシン翻訳の有効性で広く知られている。
コード要約と生成による逆翻訳を提案する。
提案手法は最先端の手法と競合することを示す。
論文 参考訳(メタデータ) (2022-05-23T08:20:41Z) - A Unified Strategy for Multilingual Grammatical Error Correction with
Pre-trained Cross-Lingual Language Model [100.67378875773495]
本稿では,多言語文法的誤り訂正のための汎用的かつ言語に依存しない戦略を提案する。
我々の手法は言語固有の操作を使わずに多様な並列GECデータを生成する。
NLPCC 2018 Task 2のデータセット(中国語)で最先端の結果を達成し、Falko-Merlin(ドイツ語)とRULEC-GEC(ロシア語)の競合性能を得る。
論文 参考訳(メタデータ) (2022-01-26T02:10:32Z) - Style Variation as a Vantage Point for Code-Switching [54.34370423151014]
Code-Switching (CS) は、複数のバイリンガルコミュニティや多言語コミュニティでよく見られる現象である。
両言語間のスタイルのバリエーションとして,CSの新たな特徴点を提示する。
本稿では,第1段階がCSの競合負例を生成し,第2段階がより現実的なCS文を生成する2段階生成逆トレーニング手法を提案する。
論文 参考訳(メタデータ) (2020-05-01T15:53:16Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。