論文の概要: Unsupervised Parallel Corpus Mining on Web Data
- arxiv url: http://arxiv.org/abs/2009.08595v1
- Date: Fri, 18 Sep 2020 02:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 02:49:21.288774
- Title: Unsupervised Parallel Corpus Mining on Web Data
- Title(参考訳): web データの教師なし並列コーパスマイニング
- Authors: Guokun Lai, Zihang Dai, Yiming Yang
- Abstract要約: 並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
- 参考スコア(独自算出の注目度): 53.74427402568838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With a large amount of parallel data, neural machine translation systems are
able to deliver human-level performance for sentence-level translation.
However, it is costly to label a large amount of parallel data by humans. In
contrast, there is a large-scale of parallel corpus created by humans on the
Internet. The major difficulty to utilize them is how to filter them out from
the noise website environments. Current parallel data mining methods all
require labeled parallel data as the training source. In this paper, we present
a pipeline to mine the parallel corpus from the Internet in an unsupervised
manner. On the widely used WMT'14 English-French and WMT'16 English-German
benchmarks, the machine translator trained with the data extracted by our
pipeline achieves very close performance to the supervised results. On the
WMT'16 English-Romanian and Romanian-English benchmarks, our system produces
new state-of-the-art results, 39.81 and 38.95 BLEU scores, even compared with
supervised approaches.
- Abstract(参考訳): 大量の並列データによって、ニューラルマシン翻訳システムは、文レベルの翻訳に人間レベルのパフォーマンスを提供することができる。
しかし、人間が大量の並列データをラベル付けするのはコストがかかる。
対照的に、インターネット上には人間が作成した大規模な並列コーパスが存在する。
それらを利用するのが難しいのは、ノイズサイト環境からそれらをフィルタする方法だ。
現在の並列データマイニング手法はすべて、トレーニングソースとしてラベル付き並列データを必要とする。
本稿では,インターネットからの並列コーパスを教師なしでマイニングするためのパイプラインを提案する。
広く使われているWMT'14とWMT'16の英語-ドイツ語ベンチマークでは、パイプラインによって抽出されたデータでトレーニングされた機械翻訳器が教師付き結果に非常に近い性能を達成する。
WMT'16の英語-ルーマニア語とルーマニア語-英語のベンチマークで、我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアという新しい最先端の結果を生成する。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Exploring Paracrawl for Document-level Neural Machine Translation [21.923881766940088]
文書レベルのニューラルマシン翻訳(NMT)は、多くのデータセット上で文レベルのNMTよりも優れています。
パラクロールからパラクロールのパラパラパラパラグラフのみを用いて訓練した文書レベルのNMTモデルを実文書の翻訳に利用できることを示す。
論文 参考訳(メタデータ) (2023-04-20T11:21:34Z) - PARTIME: Scalable and Parallel Processing Over Time with Deep Neural
Networks [68.96484488899901]
PartIMEは、データが継続的にストリーミングされるたびにニューラルネットワークを高速化するように設計されたライブラリです。
PartIMEは、ストリームから利用可能になった時点で、各データサンプルの処理を開始する。
オンライン学習において、PartialIMEと古典的な非並列ニューラル計算を経験的に比較するために実験が行われる。
論文 参考訳(メタデータ) (2022-10-17T14:49:14Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Meta Back-translation [111.87397401837286]
プリトレーニングされたバック翻訳モデルから擬似並列データを生成する新しい手法を提案する。
本手法は,生成する擬似並列データに対して,検証セット上で良好な処理を行うためのフォワードトランスレーションモデルを訓練するように,事前訓練されたバックトランスレーションモデルを適用するメタラーニングアルゴリズムである。
論文 参考訳(メタデータ) (2021-02-15T20:58:32Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。