論文の概要: Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts
- arxiv url: http://arxiv.org/abs/2311.03696v1
- Date: Tue, 7 Nov 2023 03:50:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-08 17:03:25.446862
- Title: Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts
- Title(参考訳): 2言語コーパスマイニングと多段階ファインチューニングによる講義テキストの機械翻訳の改善
- Authors: Haiyue Song, Raj Dabre, Chenhui Chu, Atsushi Fujita and Sadao
Kurohashi
- Abstract要約: 本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
- 参考スコア(独自算出の注目度): 50.00305136008848
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Lecture transcript translation helps learners understand online courses,
however, building a high-quality lecture machine translation system lacks
publicly available parallel corpora. To address this, we examine a framework
for parallel corpus mining, which provides a quick and effective way to mine a
parallel corpus from publicly available lectures on Coursera. To create the
parallel corpora, we propose a dynamic programming based sentence alignment
algorithm which leverages the cosine similarity of machine-translated
sentences. The sentence alignment F1 score reaches 96%, which is higher than
using the BERTScore, LASER, or sentBERT methods. For both English--Japanese and
English--Chinese lecture translations, we extracted parallel corpora of
approximately 50,000 lines and created development and test sets through manual
filtering for benchmarking translation performance. Through machine translation
experiments, we show that the mined corpora enhance the quality of lecture
transcript translation when used in conjunction with out-of-domain parallel
corpora via multistage fine-tuning. Furthermore, this study also suggests
guidelines for gathering and cleaning corpora, mining parallel sentences,
cleaning noise in the mined data, and creating high-quality evaluation splits.
For the sake of reproducibility, we have released the corpora as well as the
code to create them. The dataset is available at
https://github.com/shyyhs/CourseraParallelCorpusMining.
- Abstract(参考訳): 講義書き起こし翻訳は、学習者がオンラインコースを理解するのに役立つが、高品質の講義機械翻訳システムを構築するには、公開されている並列コーパスが欠如している。
そこで本研究では,並列コーパスマイニングのためのフレームワークについて検討し,Courseraの公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
並列コーパスを作成するために,機械翻訳文のコサイン類似性を利用した動的プログラムベース文アライメントアルゴリズムを提案する。
文アライメントF1スコアは96%に達し、BERTScore, LASER, sentBERTメソッドよりも高い。
英語と英語の同時翻訳では,約5万行の並列コーパスを抽出し,手動フィルタリングによる翻訳性能のベンチマークによる開発・テストセットを作成した。
機械翻訳実験により, マイニングしたコーパスが多段微調整により, 領域外並列コーパスと併用することにより, 講義翻訳の質を高めることを示した。
さらに, コーパスの収集と清掃, 並列文のマイニング, マイニングデータのクリーニング, 高品質な評価スプリットの作成に関するガイドラインも提案した。
再現性のために、私たちはコーパスとそれらを作成するコードをリリースしました。
データセットはhttps://github.com/shyyhs/courseraparallelcorpusminingで入手できる。
関連論文リスト
- Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Preparation of Sentiment tagged Parallel Corpus and Testing its effect
on Machine Translation [12.447116722795899]
本稿では,英語・ベンガル語並列コーパスをタグ付けした同じ感情の調製について論じる。
翻訳モデルの出力はBLEUやTERなどの自動メトリクスを用いたベースライン翻訳モデルと比較されている。
論文 参考訳(メタデータ) (2020-07-28T09:04:47Z) - Parallel Corpus Filtering via Pre-trained Language Models [14.689457985200141]
Webcrawled Dataは、機械翻訳モデルをトレーニングするための並列コーパスの優れたソースを提供する。
最近の研究によると、ニューラルマシン翻訳システムは従来の統計機械翻訳法よりもノイズに敏感である。
本稿では,事前学習言語モデルを用いて,Webcrawled corporaからノイズの多い文ペアを抽出する手法を提案する。
論文 参考訳(メタデータ) (2020-05-13T06:06:23Z) - Coursera Corpus Mining and Multistage Fine-Tuning for Improving Lectures
Translation [37.04364877980479]
本稿では,Coursera の公開講義から並列コーパスをマイニングする方法を紹介する。
提案手法は,連続空間の文表現よりも機械翻訳とコサイン類似性に頼って,文のアライメントを決定する。
日本語-英語の講義翻訳では,約4万行の並列データを抽出し,開発・テストセットを作成した。
論文 参考訳(メタデータ) (2019-12-26T01:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。