論文の概要: Exploring Paracrawl for Document-level Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2304.10216v1
- Date: Thu, 20 Apr 2023 11:21:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 13:52:41.532856
- Title: Exploring Paracrawl for Document-level Neural Machine Translation
- Title(参考訳): 文書レベルのニューラルマシン翻訳のためのパラクロール探索
- Authors: Yusser Al Ghussin, Jingyi Zhang, Josef van Genabith
- Abstract要約: 文書レベルのニューラルマシン翻訳(NMT)は、多くのデータセット上で文レベルのNMTよりも優れています。
パラクロールからパラクロールのパラパラパラパラグラフのみを用いて訓練した文書レベルのNMTモデルを実文書の翻訳に利用できることを示す。
- 参考スコア(独自算出の注目度): 21.923881766940088
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Document-level neural machine translation (NMT) has outperformed
sentence-level NMT on a number of datasets. However, document-level NMT is
still not widely adopted in real-world translation systems mainly due to the
lack of large-scale general-domain training data for document-level NMT. We
examine the effectiveness of using Paracrawl for learning document-level
translation. Paracrawl is a large-scale parallel corpus crawled from the
Internet and contains data from various domains. The official Paracrawl corpus
was released as parallel sentences (extracted from parallel webpages) and
therefore previous works only used Paracrawl for learning sentence-level
translation. In this work, we extract parallel paragraphs from Paracrawl
parallel webpages using automatic sentence alignments and we use the extracted
parallel paragraphs as parallel documents for training document-level
translation models. We show that document-level NMT models trained with only
parallel paragraphs from Paracrawl can be used to translate real documents from
TED, News and Europarl, outperforming sentence-level NMT models. We also
perform a targeted pronoun evaluation and show that document-level models
trained with Paracrawl data can help context-aware pronoun translation.
- Abstract(参考訳): document-level neural machine translation (nmt) は多くのデータセットで文レベルのnmtを上回っている。
しかし、文書レベルのnmtは、主に文書レベルのnmtのための大規模一般ドメイン訓練データがないため、実世界の翻訳システムでは広く採用されていない。
文書レベルの翻訳学習におけるParacrawlの有効性を検討する。
Paracrawlは、インターネットからクロールされた大規模な並列コーパスで、さまざまなドメインのデータを含んでいる。
公式のParacrawlコーパスは並列文(並列Webページから抽出された)としてリリースされたため、以前の作品ではParacrawlを使用して文レベルの翻訳を学習しただけだった。
本研究では,自動文アライメントを用いてパラクロール並列webページからパラレルパラレル段落を抽出し,抽出したパラレル段落を並列文書として文書レベルの翻訳モデルを訓練する。
パラクロールからパラクロールのパラパラパラパラパラパラグラフのみを用いて訓練した文書レベルのNMTモデルを用いて,TED,News,Europarlの実際の文書を翻訳し,文レベルのNMTモデルより優れていることを示す。
また,Paracrawlデータを用いて訓練した文書レベルのモデルが,文脈対応の代名詞翻訳に役立つことを示す。
関連論文リスト
- LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Multilingual Document-Level Translation Enables Zero-Shot Transfer From
Sentences to Documents [19.59133362105703]
ドキュメントレベルのニューラルマシン翻訳(DocNMT)は、クロスセンスコンテキストを取り入れたコヒーレントな翻訳を提供する。
本研究では,DocNMTにおける文脈モデリングが,ゼロショット方式で文から文書への変換可能かどうかについて検討する。
論文 参考訳(メタデータ) (2021-09-21T17:49:34Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Context-aware Decoder for Neural Machine Translation using a Target-side
Document-Level Language Model [12.543106304662059]
本稿では,文書レベルの言語モデルをデコーダに組み込むことで,文レベルの翻訳モデルを文脈認識モデルに変換する手法を提案する。
我々のデコーダは文レベルのパラレルコーパスとモノリンガルコーパスのみに基づいて構築されている。
理論的観点からは、この研究の核となる部分は、文脈と現在の文間のポイントワイドな相互情報を用いた文脈情報の新しい表現である。
論文 参考訳(メタデータ) (2020-10-24T08:06:18Z) - A Corpus for English-Japanese Multimodal Neural Machine Translation with
Comparable Sentences [21.43163704217968]
既存の画像キャプションデータセットから合成した文に匹敵する多モーダルな英和コーパスを提案する。
ベースライン実験において翻訳スコアが低かったため、現在のマルチモーダルNMTモデルは、比較文データを有効に活用するために設計されていないと信じている。
論文 参考訳(メタデータ) (2020-10-17T06:12:25Z) - Unsupervised Parallel Corpus Mining on Web Data [53.74427402568838]
並列コーパスを教師なしでインターネットからマイニングするためのパイプラインを提示する。
我々のシステムは、監督されたアプローチと比較しても、39.81と38.95のBLEUスコアを新たに生成する。
論文 参考訳(メタデータ) (2020-09-18T02:38:01Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - Using Context in Neural Machine Translation Training Objectives [23.176247496139574]
バッチレベルの文書を用いた文書レベルのメトリクスを用いたニューラルネットワーク翻訳(NMT)トレーニングを提案する。
トレーニングは、シーケンスメトリクスよりもドキュメントレベルのメトリクスの方が堅牢であることを示す。
論文 参考訳(メタデータ) (2020-05-04T13:42:30Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z) - Capturing document context inside sentence-level neural machine
translation models with self-training [5.129814362802968]
文書レベルのニューラルマシン翻訳は、文レベルの翻訳よりもあまり注目されず、遅れを取っている。
本稿では,並列文書レベルのコーパス上で,特殊なモデルを訓練する必要のない手法を提案する。
我々のアプローチは、モデルによる選択を強化するため、文書内の他の文で同じ選択がされる可能性が高くなる。
論文 参考訳(メタデータ) (2020-03-11T12:36:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。