論文の概要: Facilitating Terminology Translation with Target Lemma Annotations
- arxiv url: http://arxiv.org/abs/2101.10035v1
- Date: Mon, 25 Jan 2021 12:07:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 12:26:51.470541
- Title: Facilitating Terminology Translation with Target Lemma Annotations
- Title(参考訳): ターゲット補題アノテーションによる用語翻訳の円滑化
- Authors: Toms Bergmanis and M\=arcis Pinnis
- Abstract要約: 対象言語の補題でランダムに選択されたソース言語単語を注釈するソースサイドデータ拡張法を用いて機械翻訳システムを訓練する。
形態学的に複雑なバルト語とウラル語への用語翻訳の実験は、ベースラインシステムよりも最大7つのBLEU点の改善を示している。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
- 参考スコア(独自算出の注目度): 4.492630871726495
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Most of the recent work on terminology integration in machine translation has
assumed that terminology translations are given already inflected in forms that
are suitable for the target language sentence. In day-to-day work of
professional translators, however, it is seldom the case as translators work
with bilingual glossaries where terms are given in their dictionary forms;
finding the right target language form is part of the translation process. We
argue that the requirement for apriori specified target language forms is
unrealistic and impedes the practical applicability of previous work. In this
work, we propose to train machine translation systems using a source-side data
augmentation method that annotates randomly selected source language words with
their target language lemmas. We show that systems trained on such augmented
data are readily usable for terminology integration in real-life translation
scenarios. Our experiments on terminology translation into the morphologically
complex Baltic and Uralic languages show an improvement of up to 7 BLEU points
over baseline systems with no means for terminology integration and an average
improvement of 4 BLEU points over the previous work. Results of the human
evaluation indicate a 47.7% absolute improvement over the previous work in term
translation accuracy when translating into Latvian.
- Abstract(参考訳): 機械翻訳における用語統合に関する最近の研究のほとんどは、用語翻訳がターゲット言語の文に適した形で既にインフレーションされていると仮定している。
しかし、プロの翻訳者の日々の仕事では、翻訳者が辞書形式で用語が与えられたバイリンガル用語集で作業するケースはほとんどありません。適切なターゲット言語フォームを見つけることは翻訳プロセスの一部です。
apriori の特定対象言語形式に対する要求は非現実的であり、以前の作業の実用的適用性を妨げていると論じている。
本研究では,ランダムに選択されたソース言語単語を対象言語補題で注釈付けするソース側データ拡張手法を用いて,機械翻訳システムの訓練を行う。
このような拡張データに基づいて訓練されたシステムは,実生活の翻訳シナリオにおける用語統合に容易に利用できることを示す。
形態学的に複雑なバルト語とウラル語への用語変換実験では,用語統合の手段のないベースラインシステムよりも最大7点のBLEU点が向上し,前回の作業よりも平均4点のBLEU点が向上した。
人的評価の結果は、ラトビア語への翻訳の際の項翻訳精度において、以前の研究よりも47.7%の絶対的な改善を示している。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Exploring Linguistic Similarity and Zero-Shot Learning for Multilingual
Translation of Dravidian Languages [0.34998703934432673]
我々はDravidian-Dravidian多言語翻訳のための単一デコーダニューラルマシン翻訳システムを構築した。
我々のモデルは、50%の言語方向で訓練された場合、大規模ピボットベースモデルの3 BLEU以内のスコアを得る。
論文 参考訳(メタデータ) (2023-08-10T13:38:09Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Towards Continual Learning for Multilingual Machine Translation via
Vocabulary Substitution [16.939016405962526]
多言語機械翻訳モデルの言語能力を拡張するための簡単な語彙適応スキームを提案する。
提案手法は大規模データセットに適合し,未知のスクリプトを持つ遠隔言語に適用し,元の言語ペアの翻訳性能をわずかに低下させるだけである。
論文 参考訳(メタデータ) (2021-03-11T17:10:21Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Data Augmentation and Terminology Integration for Domain-Specific
Sinhala-English-Tamil Statistical Machine Translation [1.1470070927586016]
Out of vocabulary (OOV) は低リソース言語における機械翻訳(MT)の文脈における問題である。
本稿では、ケースマーカーに基づいてバイリンガル語彙を拡大するデータ拡張技術に焦点を当てる。
論文 参考訳(メタデータ) (2020-11-05T13:58:32Z) - On the Importance of Word Order Information in Cross-lingual Sequence
Labeling [80.65425412067464]
ソース言語の単語順に適合する言語間モデルでは、ターゲット言語を処理できない可能性がある。
本研究では,ソース言語の単語順序に敏感なモデルを作成することで,対象言語の適応性能が向上するかどうかを検討する。
論文 参考訳(メタデータ) (2020-01-30T03:35:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。