論文の概要: Separating Grains from the Chaff: Using Data Filtering to Improve
Multilingual Translation for Low-Resourced African Languages
- arxiv url: http://arxiv.org/abs/2210.10692v1
- Date: Wed, 19 Oct 2022 16:12:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 14:19:08.167222
- Title: Separating Grains from the Chaff: Using Data Filtering to Improve
Multilingual Translation for Low-Resourced African Languages
- Title(参考訳): チャフから穀物を分離する: ローソースアフリカの言語のための多言語翻訳を改善するためにデータフィルタリングを使用する
- Authors: Idris Abdulmumin, Michael Beukman, Jesujoba O. Alabi, Chris Emezue,
Everlyn Asiko, Tosin Adewumi, Shamsuddeen Hassan Muhammad, Mofetoluwa
Adeyemi, Oreen Yousuf, Sahib Singh, Tajuddeen Rabiu Gwadabe
- Abstract要約: 本稿では,文対分類器を用いて与えられた雑音データをフィルタリングする手法について述べる。
2つの共通のデータセットから評価することで、我々のアプローチを実証的に検証し、データフィルタリングが全体的な翻訳品質を改善することを示す。
- 参考スコア(独自算出の注目度): 0.6947064688250465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We participated in the WMT 2022 Large-Scale Machine Translation Evaluation
for the African Languages Shared Task. This work describes our approach, which
is based on filtering the given noisy data using a sentence-pair classifier
that was built by fine-tuning a pre-trained language model. To train the
classifier, we obtain positive samples (i.e. high-quality parallel sentences)
from a gold-standard curated dataset and extract negative samples (i.e.
low-quality parallel sentences) from automatically aligned parallel data by
choosing sentences with low alignment scores. Our final machine translation
model was then trained on filtered data, instead of the entire noisy dataset.
We empirically validate our approach by evaluating on two common datasets and
show that data filtering generally improves overall translation quality, in
some cases even significantly.
- Abstract(参考訳): 我々は,WMT 2022のアフリカ言語共有タスクにおける大規模機械翻訳評価に参加した。
本研究は,事前学習した言語モデルを微調整した文音分類器を用いて,与えられた雑音データをフィルタリングする手法について述べる。
分類器を訓練するために、ゴールド標準キュレートされたデータセットから正のサンプル(高品質並列文)を取得し、低アライメントスコアの文を選択して自動的に一致した並列データから負のサンプル(低品質並列文)を抽出する。
最終的な機械翻訳モデルは、ノイズの多いデータセット全体ではなく、フィルタリングデータに基づいてトレーニングされました。
2つの共通のデータセットから評価することで、我々のアプローチを実証的に検証し、データフィルタリングが一般的に全体的な翻訳品質を改善することを示す。
関連論文リスト
- A Case Study on Filtering for End-to-End Speech Translation [32.676738355929466]
音声からテキストへの翻訳や音声から音声への翻訳など、機械学習タスクのための大きな並列コーパスのマイニングは比較的容易である。
この研究は、最も単純なフィルタリング技術が、これらの大きなノイズの多いデータセットを、より管理しやすいクリーンなデータセットにトリミングできることを示しています。
論文 参考訳(メタデータ) (2024-02-02T22:42:33Z) - There's no Data Like Better Data: Using QE Metrics for MT Data Filtering [25.17221095970304]
ニューラルネットワーク翻訳システム(NMT)のトレーニングデータにおいて、品質の悪い文対をフィルタリングするためにQEメトリクスを使用した場合の生存可能性について分析する。
トレーニングデータ中の高品質な文ペアを選択することで、トレーニングサイズを半分に減らしながら翻訳品質を向上させることができることを示す。
論文 参考訳(メタデータ) (2023-11-09T13:21:34Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - In-context Examples Selection for Machine Translation [101.50473468507697]
大規模生成モデルは、コンテキスト内学習を用いて、幅広い自然言語処理(NLP)タスクを実行するという印象的な能力を示している。
機械翻訳(MT)の場合、これらの例は、通常、開発データセットからランダムにサンプリングされ、評価セットと同じような分布を持つ。
テキスト内サンプルの翻訳品質とドメインが重要であり,1ショットノイズ非関連例が出力品質に破滅的な影響を及ぼす可能性が示唆された。
論文 参考訳(メタデータ) (2022-12-05T17:25:15Z) - OneAligner: Zero-shot Cross-lingual Transfer with One Rich-Resource
Language Pair for Low-Resource Sentence Retrieval [91.76575626229824]
文検索タスク用に特別に設計されたアライメントモデルであるOneAlignerを提案する。
大規模並列多言語コーパス(OPUS-100)の全ての言語ペアで訓練すると、このモデルは最先端の結果が得られる。
実験結果から,文アライメントタスクの性能はモノリンガルおよび並列データサイズに大きく依存することがわかった。
論文 参考訳(メタデータ) (2022-05-17T19:52:42Z) - Analyzing the Use of Character-Level Translation with Sparse and Noisy
Datasets [20.50917929755389]
キャラクタレベルのモデルでは、スパースやノイズの多いデータセットに適用すると、翻訳されていない単語の数が40%以上削減されることがわかった。
文字アライメント,フレーズテーブルフィルタリング,bitextサイズ,およびピボット言語の選択が翻訳品質に与える影響について検討する。
ワードノーキャラクタ-BLEUは、BLEUの長さに対する感度のため、人間の判断と完全に相関しない。
論文 参考訳(メタデータ) (2021-09-27T07:35:47Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Cross-language Sentence Selection via Data Augmentation and Rationale
Training [22.106577427237635]
雑音のある並列文データに対するデータ拡張と負のサンプリング技術を用いて、言語間埋め込みに基づくクエリ関連モデルの学習を行う。
その結果、同じ並列データでトレーニングされた複数の最先端機械翻訳+モノリンガル検索システムよりも、このアプローチが優れているか、あるいは優れていることが示された。
論文 参考訳(メタデータ) (2021-06-04T07:08:47Z) - Self-Training Sampling with Monolingual Data Uncertainty for Neural
Machine Translation [98.83925811122795]
並列データを補完するために最も情報に富んだ単言語文を選択することでサンプリング手順を改善することを提案する。
並列データから抽出したバイリンガル辞書を用いて単言語文の不確実性を計算した。
大規模WMT英語$Rightarrow$Germanと英語$Rightarrow$ Chineseデータセットの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2021-06-02T05:01:36Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。