論文の概要: Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation
- arxiv url: http://arxiv.org/abs/2205.12649v2
- Date: Tue, 4 Apr 2023 17:16:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 19:14:14.217175
- Title: Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation
- Title(参考訳): アラビア語のコード変換データ拡張のための語彙置換の検討
- Authors: Injy Hamed, Nizar Habash, Slim Abdennadher, Ngoc Thang Vu
- Abstract要約: CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
- 参考スコア(独自算出の注目度): 32.885722714728765
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Data sparsity is a main problem hindering the development of code-switching
(CS) NLP systems. In this paper, we investigate data augmentation techniques
for synthesizing dialectal Arabic-English CS text. We perform lexical
replacements using word-aligned parallel corpora where CS points are either
randomly chosen or learnt using a sequence-to-sequence model. We compare these
approaches against dictionary-based replacements. We assess the quality of the
generated sentences through human evaluation and evaluate the effectiveness of
data augmentation on machine translation (MT), automatic speech recognition
(ASR), and speech translation (ST) tasks. Results show that using a predictive
model results in more natural CS sentences compared to the random approach, as
reported in human judgements. In the downstream tasks, despite the random
approach generating more data, both approaches perform equally (outperforming
dictionary-based replacements). Overall, data augmentation achieves 34%
improvement in perplexity, 5.2% relative improvement on WER for ASR task,
+4.0-5.1 BLEU points on MT task, and +2.1-2.2 BLEU points on ST over a baseline
trained on available data without augmentation.
- Abstract(参考訳): データスパシティは、コードスイッチング(CS)NLPシステムの開発を妨げる主要な問題である。
本稿では,方言のアラビア語-英語csテキスト合成のためのデータ拡張手法について検討する。
単語列並列コーパスを用いて語彙置換を行い,cs点をランダムに選択するか,シーケンス列モデルを用いて学習するかした。
これらのアプローチを辞書ベースの置換と比較する。
人による評価によって生成された文の品質を評価し,機械翻訳(MT),自動音声認識(ASR),音声翻訳(ST)タスクにおけるデータ拡張の有効性を評価する。
その結果, 予測モデルを用いることで, 確率的アプローチよりも自然なCS文が得られることがわかった。
下流のタスクでは、ランダムなアプローチがより多くのデータを生成するにもかかわらず、どちらの手法も同等に(辞書ベースの置換よりも)機能する。
全体として、データ拡張は34%のパープレキシティ向上、ASRタスクのWERの5.2%の相対的な改善、MTタスクの+4.0-5.1のBLEUポイント、および+2.1-2.2のBLEUポイントを、拡張なしで利用可能なデータに基づいてトレーニングされたベースライン上でST上に達成している。
関連論文リスト
- Data Augmentation Techniques for Machine Translation of Code-Switched
Texts: A Comparative Study [37.542853327876074]
語彙置換、言語理論、バックトランスレーションの3つの一般的なアプローチを比較した。
BTおよびCSW予測に基づく語彙置換は,CSW並列データに基づいて訓練され,両タスクにおいて最善であることを示す。
論文 参考訳(メタデータ) (2023-10-23T18:09:41Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - WADER at SemEval-2023 Task 9: A Weak-labelling framework for Data
augmentation in tExt Regression Tasks [4.102007186133394]
本稿では、WADERと呼ばれるテキスト回帰タスクにおいて、データ拡張のための新しい弱ラベル方式を提案する。
我々は、WADERを用いて、事前訓練された多言語言語モデルの性能をベンチマークし、データのバイアスを軽減するためにサンプリング技術を用いて分析する。
論文 参考訳(メタデータ) (2023-03-05T19:45:42Z) - Enhanced Direct Speech-to-Speech Translation Using Self-supervised
Pre-training and Data Augmentation [76.13334392868208]
直接音声音声変換(S2ST)モデルは、データ不足の問題に悩まされる。
本研究では,この課題に対処するために,ラベルのない音声データとデータ拡張を用いた自己教師付き事前学習について検討する。
論文 参考訳(メタデータ) (2022-04-06T17:59:22Z) - Code-Switching Text Augmentation for Multilingual Speech Processing [36.302629721413155]
音声コンテンツのコードスイッチングは、混合入力を処理するためにASRシステムに強制されている。
近年のASR研究は,多言語データを用いたCS現象の処理におけるE2E-ASRの優位性を示した。
音声CSテキストを人工的に生成し、異なる音声モジュールを改善するためのモノリンガルデータを強化する手法を提案する。
論文 参考訳(メタデータ) (2022-01-07T17:14:19Z) - Low Resource German ASR with Untranscribed Data Spoken by Non-native
Children -- INTERSPEECH 2021 Shared Task SPAPL System [19.435571932141364]
本稿では,ドイツ語における非Native Children's Speechの音声認識における共有課題であるInterSPEECH 2021 ChallengeのSPAPLシステムについて述べる。
子ども向けのドイツのASRシステムを開発するために,5時間の転写データと60時間の非転写データを提供する。
書き起こしデータのトレーニングのために,音声発話における長周期非音声区間の影響を軽減するために,非音声状態判別損失(NSDL)を提案する。
本システムは,評価データに対して39.68%の単語誤り率(WER)を達成する。
論文 参考訳(メタデータ) (2021-06-18T07:36:26Z) - Consistency Regularization for Cross-Lingual Fine-Tuning [61.08704789561351]
整合性正規化による言語間微調整の改善を提案する。
具体的には、例の整合性正規化を用いて、予測感度を4種類のデータ拡張にペナルティ化する。
XTREMEベンチマークの実験結果から,本手法は様々なタスクにおける言語間微調整を大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-15T15:35:44Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。