論文の概要: Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation
- arxiv url: http://arxiv.org/abs/1912.11739v2
- Date: Tue, 14 Jan 2020 03:16:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-10 08:37:15.111913
- Title: Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation
- Title(参考訳): 講義翻訳改善のためのコースラコーパスマイニングと多段階ファインチューニング
- Authors: Haiyue Song, Raj Dabre, Atsushi Fujita, Sadao Kurohashi
- Abstract要約: 本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
- 参考スコア(独自算出の注目度): 37.04364877980479
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Lectures translation is a case of spoken language translation and there is a
lack of publicly available parallel corpora for this purpose. To address this,
we examine a language independent framework for parallel corpus mining which is
a quick and effective way to mine a parallel corpus from publicly available
lectures at Coursera. Our approach determines sentence alignments, relying on
machine translation and cosine similarity over continuous-space sentence
representations. We also show how to use the resulting corpora in a multistage
fine-tuning based domain adaptation for high-quality lectures translation. For
Japanese--English lectures translation, we extracted parallel data of
approximately 40,000 lines and created development and test sets through manual
filtering for benchmarking translation performance. We demonstrate that the
mined corpus greatly enhances the quality of translation when used in
conjunction with out-of-domain parallel corpora via multistage training. This
paper also suggests some guidelines to gather and clean corpora, mine parallel
sentences, address noise in the mined data, and create high-quality evaluation
splits. For the sake of reproducibility, we will release our code for parallel
data creation.
- Abstract(参考訳): 講演翻訳は言語翻訳の事例であり、この目的のために公開されている並列コーパスが欠如している。
そこで本研究では,courseraで公開されている講義から並列コーパスをマイニングするための迅速かつ効果的な手法である並列コーパスマイニングのための言語独立フレームワークについて検討する。
本手法は,連続空間文表現における機械翻訳とコサイン類似性に依存する文アライメントを決定する。
また,高品質講義翻訳のための多段微調整に基づくドメイン適応におけるコーパスの使い方を示す。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,手動フィルタリングを用いて翻訳性能のベンチマークを行う。
本手法は,多段階学習による領域外並列コーパスと併用することにより,翻訳品質が大幅に向上することを示す。
また, コーパスの収集とクリーン化, 並列文のマイニング, マイニングデータ中のノイズへの対処, 高品質な評価スプリットの作成に関するガイドラインを提案する。
再現性のために、並列データ作成のためのコードをリリースします。
関連論文リスト
- Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model [12.543106304662059]
本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
論文 参考訳(メタデータ) (2020-10-24T08:06:18Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。