論文の概要: Data Augmentation Techniques for Machine Translation of Code-Switched
Texts: A Comparative Study
- arxiv url: http://arxiv.org/abs/2310.15262v1
- Date: Mon, 23 Oct 2023 18:09:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 22:24:41.635921
- Title: Data Augmentation Techniques for Machine Translation of Code-Switched
Texts: A Comparative Study
- Title(参考訳): コード切り替わったテキストの機械翻訳のためのデータ拡張手法の比較研究
- Authors: Injy Hamed, Nizar Habash, Ngoc Thang Vu
- Abstract要約: 語彙置換、言語理論、バックトランスレーションの3つの一般的なアプローチを比較した。
BTおよびCSW予測に基づく語彙置換は,CSW並列データに基づいて訓練され,両タスクにおいて最善であることを示す。
- 参考スコア(独自算出の注目度): 37.542853327876074
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching (CSW) text generation has been receiving increasing attention
as a solution to address data scarcity. In light of this growing interest, we
need more comprehensive studies comparing different augmentation approaches. In
this work, we compare three popular approaches: lexical replacements,
linguistic theories, and back-translation (BT), in the context of Egyptian
Arabic-English CSW. We assess the effectiveness of the approaches on machine
translation and the quality of augmentations through human evaluation. We show
that BT and CSW predictive-based lexical replacement, being trained on CSW
parallel data, perform best on both tasks. Linguistic theories and random
lexical replacement prove to be effective in the lack of CSW parallel data,
where both approaches achieve similar results.
- Abstract(参考訳): コードスイッチング(CSW)テキスト生成は、データの不足に対処するソリューションとして注目されている。
このような関心の高まりを踏まえて、異なる拡張アプローチを比較するもっと包括的な研究が必要です。
本研究は,エジプト・アラビア・英語CSWの文脈において,語彙置換,言語理論,後方翻訳(BT)の3つの一般的なアプローチを比較した。
機械翻訳におけるアプローチの有効性と人的評価による強化の質を評価する。
BTおよびCSW予測に基づく語彙置換は,CSW並列データに基づいて訓練され,両タスクにおいて最善であることを示す。
言語理論とランダムな語彙置換はCSW並列データの欠如に有効であることが証明され、どちらも同様の結果が得られる。
関連論文リスト
- Performance of Data Augmentation Methods for Brazilian Portuguese Text
Classification [0.0]
本研究では,ブラジルのポルトガル語コーパスを用いたテキスト分類問題に適用した既存のデータ拡張手法を利用して,その性能を解析した。
分析の結果,これらの手法を用いることでいくつかの改善が見られたが,言語バイアスや非英語テキストデータ不足のさらなる活用が示唆された。
論文 参考訳(メタデータ) (2023-04-05T23:13:37Z) - TRESTLE: Toolkit for Reproducible Execution of Speech, Text and Language
Experiments [8.329520728240677]
我々は、TalkBankリポジトリから2つのデータセットに焦点を当てたオープンソースのプラットフォームであるTRESTLEを紹介します。
TRESTLEは、データ前処理と選択戦略の正確なデジタル青写真を提供し、他の研究者がTRESTLEを通じて再利用することができる。
論文 参考訳(メタデータ) (2023-02-14T20:07:31Z) - Revamping Multilingual Agreement Bidirectionally via Switched
Back-translation for Multilingual Neural Machine Translation [107.83158521848372]
マルチリンガル・コンセンサス(MA)は、マルチリンガル・ニューラル・マシン翻訳(MNMT)の重要性を示した
textbfBidirectional textbfMultilingual textbfAgreement via textbfSwitched textbfBack-textbftranslation (textbfBMA-SBT)
これは、訓練済みのMNMTモデルを微調整するための、新規で普遍的な多言語合意フレームワークである。
論文 参考訳(メタデータ) (2022-09-28T09:14:58Z) - Investigating Lexical Replacements for Arabic-English Code-Switched Data
Augmentation [32.885722714728765]
CS (code-switching) NLPシステムにおけるデータ拡張手法について検討する。
単語整列並列コーパスを用いて語彙置換を行う。
これらのアプローチを辞書ベースの置換と比較する。
論文 参考訳(メタデータ) (2022-05-25T10:44:36Z) - On the Language Coverage Bias for Neural Machine Translation [81.81456880770762]
言語カバレッジバイアスは、ニューラルネットワーク翻訳(NMT)において重要である。
実験を慎重に設計することにより、トレーニングデータにおける言語カバレッジバイアスの包括的分析を行う。
本稿では,言語カバレッジバイアス問題を軽減するための,シンプルで効果的な2つのアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-07T01:55:34Z) - Can You Traducir This? Machine Translation for Code-Switched Input [0.0]
コードスイッチ(CSW)は、多言語の地理的または社会的文脈で発生する一般的な現象です。
ここでは、CSWテキストの機械翻訳(MT)に焦点を当て、同時に2つの混合言語を解き放つことを目指しています。
実験では、このトレーニング戦略は、コード交換テキストの多言語システムを超えるMTシステムをもたらします。
論文 参考訳(メタデータ) (2021-05-11T08:06:30Z) - An Empirical Study of Contextual Data Augmentation for Japanese Zero
Anaphora Resolution [40.77086563127755]
本研究では,この問題をデータ拡張によって効果的に緩和する方法について検討する。
我々は、事前訓練された言語モデルを用いてラベル付きトレーニングインスタンスを生成する、最先端のデータ拡張手法を採用する。
提案手法は,従来のデータ拡張と比較して,強化トレーニングデータの品質を向上させることができる。
論文 参考訳(メタデータ) (2020-11-02T13:05:00Z) - Unsupervised Cross-lingual Adaptation for Sequence Tagging and Beyond [58.80417796087894]
多言語事前訓練言語モデル(mPTLM)による言語間適応は、主にゼロショットアプローチと翻訳に基づくアプローチの2行からなる。
本稿では、ゼロショットアプローチと翻訳に基づくアプローチを統合し、適応性能を向上させるための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-23T13:47:01Z) - CoDA: Contrast-enhanced and Diversity-promoting Data Augmentation for
Natural Language Understanding [67.61357003974153]
我々はCoDAと呼ばれる新しいデータ拡張フレームワークを提案する。
CoDAは、複数の変換を有機的に統合することで、多種多様な情報付加例を合成する。
すべてのデータサンプルのグローバルな関係を捉えるために、対照的な正則化の目的を導入する。
論文 参考訳(メタデータ) (2020-10-16T23:57:03Z) - Syntax-aware Data Augmentation for Neural Machine Translation [76.99198797021454]
本稿では,ニューラルマシン翻訳のための新しいデータ拡張戦略を提案する。
文中の役割を考慮し,単語選択のための文特異的確率を設定した。
提案手法はWMT14の英語-ドイツ語データセットとIWSLT14のドイツ語-英語データセットを用いて評価する。
論文 参考訳(メタデータ) (2020-04-29T13:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。