論文の概要: Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation
- arxiv url: http://arxiv.org/abs/2205.12649v1
- Date: Wed, 25 May 2022 10:44:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-27 02:09:05.862960
- Title: Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation
- Title(参考訳): アラビア語のコード変換データ拡張のための語彙置換の検討
- Authors: Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu
- Abstract要約: CS (Code-switching) は NLP タスクにいくつかの課題を生じさせ、データ空間が CS の NLP システムの開発を妨げる主要な問題である。
並列コーパスとCS点がランダムに選択されたり学習されたりしたアライメントを用いて語彙置換を行う。
言語モデリング(LM)、機械翻訳(MT)、自動音声認識(ASR)タスクにおけるデータ拡張の有効性を評価する。
- 参考スコア(独自算出の注目度): 32.885722714728765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CS) poses several challenges to NLP tasks, where data
sparsity is a main problem hindering the development of CS NLP systems. In this
paper, we investigate data augmentation techniques for synthesizing Dialectal
Arabic-English CS text. We perform lexical replacements using parallel corpora
and alignments where CS points are either randomly chosen or learnt using a
sequence-to-sequence model. We evaluate the effectiveness of data augmentation
on language modeling (LM), machine translation (MT), and automatic speech
recognition (ASR) tasks. Results show that in the case of using 1-1 alignments,
using trained predictive models produces more natural CS sentences, as
reflected in perplexity. By relying on grow-diag-final alignments, we then
identify aligning segments and perform replacements accordingly. By replacing
segments instead of words, the quality of synthesized data is greatly improved.
With this improvement, random-based approach outperforms using trained
predictive models on all extrinsic tasks. Our best models achieve 33.6%
improvement in perplexity, +3.2-5.6 BLEU points on MT task, and 7% relative
improvement on WER for ASR task. We also contribute in filling the gap in
resources by collecting and publishing the first Arabic English CS-English
parallel corpus.
- Abstract(参考訳): CS (Code-switching) は NLP タスクにいくつかの課題を生じさせ、データ空間が CS の NLP システムの開発を妨げる主要な問題である。
本稿では,Dialectal Arabic-English CSテキストを合成するためのデータ拡張手法について検討する。
並列コーパスとアライメントを用いて語彙置換を行い、CSポイントをランダムに選択するか、シーケンス対シーケンスモデルを用いて学習する。
本研究では、言語モデル(lm)、機械翻訳(mt)、自動音声認識(asr)タスクにおけるデータ拡張の有効性を評価する。
その結果、1-1アライメントを使用する場合、訓練された予測モデルを用いることで、パープレキシティに反映されるようなより自然なCS文が生成されることがわかった。
成長ダイアログ-ファイナルアライメントに頼ることで、アライメントセグメントを特定し、それに従って置換を行う。
単語の代わりにセグメントを置き換えることで、合成データの品質が大幅に向上する。
この改良により、ランダムベースのアプローチは、すべての外在的タスクにおいて、訓練された予測モデルを使用してパフォーマンスを向上する。
最善のモデルは33.6%のパープレキシティ向上、+3.2-5.6ブルーポイントのmtタスク、7%のasrタスク向上を達成している。
また、アラビア英語 CS- English parallel corpus を収集・出版することで、資源のギャップを埋めることにも貢献する。
関連論文リスト
- Data Augmentation Techniques for Machine Translation of Code-Switched
Texts: A Comparative Study [37.542853327876074]
語彙置換、言語理論、バックトランスレーションの3つの一般的なアプローチを比較した。
BTおよびCSW予測に基づく語彙置換は,CSW並列データに基づいて訓練され,両タスクにおいて最善であることを示す。
論文 参考訳(メタデータ) (2023-10-23T18:09:41Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks [4.102007186133394]
本稿では、WADERと呼ばれるテキスト回帰タスクにおいて、データ拡張のための新しい弱ラベル方式を提案する。
我々は、WADERを用いて、事前訓練された多言語言語モデルの性能をベンチマークし、データのバイアスを軽減するためにサンプリング技術を用いて分析する。
論文 参考訳(メタデータ) (2023-03-05T19:45:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。