論文の概要: Facilitating Terminology Translation with Target Lemma Annotations
- arxiv url: http://arxiv.org/abs/2101.10035v1
- Date: Mon, 25 Jan 2021 12:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 12:26:51.470541
- Title: Facilitating Terminology Translation with Target Lemma Annotations
- Title(参考訳): ターゲット補題アノテーションによる用語翻訳の円滑化
- Authors: Toms Bergmanis and M\=arcis Pinnis
- Abstract要約: 対象言語の補題でランダムに選択されたソース言語単語を注釈するソースサイドデータ拡張法を用いて機械翻訳システムを訓練する。
形態学的に複雑なバルト語とウラル語への用語翻訳の実験は、ベースラインシステムよりも最大7つのBLEU点の改善を示している。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
- 参考スコア(独自算出の注目度): 4.492630871726495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most of the recent work on terminology integration in machine translation has
assumed that terminology translations are given already inflected in forms that
are suitable for the target language sentence. In day-to-day work of
professional translators, however, it is seldom the case as translators work
with bilingual glossaries where terms are given in their dictionary forms;
finding the right target language form is part of the translation process. We
argue that the requirement for apriori specified target language forms is
unrealistic and impedes the practical applicability of previous work. In this
work, we propose to train machine translation systems using a source-side data
augmentation method that annotates randomly selected source language words with
their target language lemmas. We show that systems trained on such augmented
data are readily usable for terminology integration in real-life translation
scenarios. Our experiments on terminology translation into the morphologically
complex Baltic and Uralic languages show an improvement of up to 7 BLEU points
over baseline systems with no means for terminology integration and an average
improvement of 4 BLEU points over the previous work. Results of the human
evaluation indicate a 47.7% absolute improvement over the previous work in term
translation accuracy when translating into Latvian.
- Abstract(参考訳): 機械翻訳における用語統合に関する最近の研究のほとんどは、用語翻訳がターゲット言語の文に適した形で既にインフレーションされていると仮定している。
しかし、プロの翻訳者の日々の仕事では、翻訳者が辞書形式で用語が与えられたバイリンガル用語集で作業するケースはほとんどありません。適切なターゲット言語フォームを見つけることは翻訳プロセスの一部です。
apriori の特定対象言語形式に対する要求は非現実的であり、以前の作業の実用的適用性を妨げていると論じている。
本研究では,ランダムに選択されたソース言語単語を対象言語補題で注釈付けするソース側データ拡張手法を用いて,機械翻訳システムの訓練を行う。
このような拡張データに基づいて訓練されたシステムは,実生活の翻訳シナリオにおける用語統合に容易に利用できることを示す。
形態学的に複雑なバルト語とウラル語への用語変換実験では,用語統合の手段のないベースラインシステムよりも最大7点のBLEU点が向上し,前回の作業よりも平均4点のBLEU点が向上した。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
- 全文 参考訳へのリンク
関連論文リスト
- Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - CUNI systems for WMT21: Terminology translation Shared Task [0.0]
本研究の目的は、提供された用語データベースに基づいて特定の用語を翻訳するシステムを設計することである。
提案手法は,入力文とともに所望の翻訳を提供し,提案した用語を使用するようにモデルを訓練することに基づいている。
トレーニング中も推論中も用語を補足し、モデルが単語の表面形状を正しく生成する方法を学習できるようにする。
論文 参考訳(メタデータ) (2021-09-20T08:05:39Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Zero-Shot Cross-lingual Semantic Parsing [56.95036511882921]
7つのテスト言語に対する並列データを持たないゼロショット問題として,言語間セマンティックパーシングについて検討した。
英文論理形式ペアデータのみを用いて解析知識を付加言語に転送するマルチタスクエンコーダデコーダモデルを提案する。
このシステムは、ゼロショット解析を潜時空間アライメント問題としてフレーム化し、事前訓練されたモデルを改善し、最小のクロスリンガル転送ペナルティで論理形式を生成することができる。
論文 参考訳(メタデータ) (2021-04-15T16:08:43Z) - Towards Continual Learning for Multilingual Machine Translation via
Vocabulary Substitution [16.939016405962526]
多言語機械翻訳モデルの言語能力を拡張するための簡単な語彙適応スキームを提案する。
提案手法は大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2021-03-11T17:10:21Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。