論文の概要: Lingua Custodia's participation at the WMT 2021 Machine Translation
using Terminologies shared task
- arxiv url: http://arxiv.org/abs/2111.02120v1
- Date: Wed, 3 Nov 2021 10:36:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-04 19:27:04.501816
- Title: Lingua Custodia's participation at the WMT 2021 Machine Translation
using Terminologies shared task
- Title(参考訳): 用語共有タスクを用いたwmt 2021機械翻訳におけるlingua custodiaの参加
- Authors: Melissa Ailem, Jinghsu Liu, Raheel Qader
- Abstract要約: 私たちは英語からフランス語、ロシア語、中国語の3つの方向を考えます。
専門用語を扱うための標準手順に2つの大きな変更を加えます。
本手法は,翻訳品質を維持しつつ,ほとんどの用語制約を満たす。
- 参考スコア(独自算出の注目度): 3.3108924994485096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper describes Lingua Custodia's submission to the WMT21 shared task on
machine translation using terminologies. We consider three directions, namely
English to French, Russian, and Chinese. We rely on a Transformer-based
architecture as a building block, and we explore a method which introduces two
main changes to the standard procedure to handle terminologies. The first one
consists in augmenting the training data in such a way as to encourage the
model to learn a copy behavior when it encounters terminology constraint terms.
The second change is constraint token masking, whose purpose is to ease copy
behavior learning and to improve model generalization. Empirical results show
that our method satisfies most terminology constraints while maintaining high
translation quality.
- Abstract(参考訳): 本稿では,lingua custodiaの wmt21 shared task on machine translation using terminologiesについて述べる。
我々は英語からフランス語、ロシア語、中国語の3つの方向を考える。
本稿では,トランスフォーマーをベースとしたアーキテクチャをビルディングブロックとして利用し,用語処理の標準手順に2つの大きな変更を加える手法を提案する。
1つ目は、モデルが用語制約項に遭遇したときのコピーの振る舞いを学習するよう促すように、トレーニングデータを増強することである。
2つ目の変更は制約トークンマスキングで、その目的はコピー動作学習の容易化とモデルの一般化の改善である。
その結果,高い翻訳品質を維持しつつ,ほとんどの用語制約を満たすことがわかった。
関連論文リスト
- Efficient Technical Term Translation: A Knowledge Distillation Approach for Parenthetical Terminology Translation [0.0]
本稿では,専門分野におけるコミュニケーションの明確化に不可欠である専門用語を正確に翻訳することの課題に対処する。
本研究は, ペアレンテティカル・ターミノロジー・トランスフォーメーション (PTT) タスクを導入し, ペアレンテティカル・ターミノロジー・トランスフォーメーション(PTT)タスクの翻訳とともに, ペアレンテティカル・ターミノロジー・トランスフォーメーション(Parenthetical Terminology Translation, PTT)タスクを導入した。
そこで我々は,単語の全体的な翻訳精度と正しい括弧表現の両方を評価するための新しい評価指標を開発した。
論文 参考訳(メタデータ) (2024-10-01T13:40:28Z) - Domain Terminology Integration into Machine Translation: Leveraging
Large Language Models [3.178046741931973]
本稿では,WMT 2023 におけるドイツ語-英語(DE-EN),英語-チェコ語(EN-CS),中国語-英語(ZH-EN)言語対に対する提案手法について述べる。
この課題は、技術用語を正確に翻訳するシステムを開発するために参加者に挑戦することで機械翻訳(MT)を進めることを目的としている。
論文 参考訳(メタデータ) (2023-10-22T23:25:28Z) - Terminology-Aware Translation with Constrained Decoding and Large
Language Model Prompting [11.264272119913311]
我々は、WMT 2023用語翻訳タスクを提出する。
私たちは、ドメインに依存しない、最小限の手作業を必要とするトランスレーション-then-refineアプローチを採用しています。
その結果,我々の用語認識モデルは,効率的に用語を組み込むことができることがわかった。
論文 参考訳(メタデータ) (2023-10-09T16:08:23Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - CUNI systems for WMT21: Terminology translation Shared Task [0.0]
本研究の目的は、提供された用語データベースに基づいて特定の用語を翻訳するシステムを設計することである。
提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。
トレーニング中も推論中も用語を補足し、モデルが単語の表面形状を正しく生成する方法を学習できるようにする。
論文 参考訳(メタデータ) (2021-09-20T08:05:39Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - Sign Language Transformers: Joint End-to-end Sign Language Recognition
and Translation [59.38247587308604]
本稿では,連続手話認識と翻訳を共同で学習するトランスフォーマーアーキテクチャを提案する。
RWTH-PHOENIX-Weather-2014Tデータセットの認識と翻訳性能の評価を行った。
我々の翻訳ネットワークは、動画を音声言語に、光沢を音声言語翻訳モデルに、どちらよりも優れています。
論文 参考訳(メタデータ) (2020-03-30T21:35:09Z) - Learning Coupled Policies for Simultaneous Machine Translation using
Imitation Learning [85.70547744787]
本稿では,プログラマ-解釈ポリシーを併用した同時翻訳モデルを効率よく学習する手法を提案する。
6つの言語対の実験により,翻訳品質の点で,本手法は高いベースラインを達成できた。
論文 参考訳(メタデータ) (2020-02-11T10:56:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。