論文の概要: Extract and Attend: Improving Entity Translation in Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2306.02242v1
- Date: Sun, 4 Jun 2023 03:05:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-06 19:17:28.125777
- Title: Extract and Attend: Improving Entity Translation in Neural Machine
Translation
- Title(参考訳): Extract and Attend: ニューラルネットワーク翻訳におけるエンティティ翻訳の改善
- Authors: Zixin Zeng, Rui Wang, Yichong Leng, Junliang Guo, Xu Tan, Tao Qin,
Tie-yan Liu
- Abstract要約: NMTにおけるエンティティ翻訳を強化するための抽出・アテンド手法を提案する。
提案手法は,エンティティの翻訳精度と全体的な翻訳品質の向上に有効である。
- 参考スコア(独自算出の注目度): 141.7840980565706
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While Neural Machine Translation(NMT) has achieved great progress in recent
years, it still suffers from inaccurate translation of entities (e.g.,
person/organization name, location), due to the lack of entity training
instances. When we humans encounter an unknown entity during translation, we
usually first look up in a dictionary and then organize the entity translation
together with the translations of other parts to form a smooth target sentence.
Inspired by this translation process, we propose an Extract-and-Attend approach
to enhance entity translation in NMT, where the translation candidates of
source entities are first extracted from a dictionary and then attended to by
the NMT model to generate the target sentence. Specifically, the translation
candidates are extracted by first detecting the entities in a source sentence
and then translating the entities through looking up in a dictionary. Then, the
extracted candidates are added as a prefix of the decoder input to be attended
to by the decoder when generating the target sentence through self-attention.
Experiments conducted on En-Zh and En-Ru demonstrate that the proposed method
is effective on improving both the translation accuracy of entities and the
overall translation quality, with up to 35% reduction on entity error rate and
0.85 gain on BLEU and 13.8 gain on COMET.
- Abstract(参考訳): ニューラルネットワーク翻訳(NMT)は近年大きな進歩を遂げているが、エンティティのトレーニングインスタンスが不足しているため、エンティティ(人/組織名、場所など)の不正確な翻訳に悩まされている。
人間は翻訳中に未知の実体に遭遇すると、まず辞書で調べ、それから他の部分の翻訳と共にエンティティ翻訳を整理して、スムーズな目標文を形成する。
そこで本研究では,NMTにおけるエンティティ翻訳の抽出手法を提案する。この手法は,まず辞書からソースエンティティの翻訳候補を抽出し,次にNMTモデルに参画し,対象文を生成する。
具体的には、まずソース文中のエンティティを検出し、次に辞書で検索してエンティティを翻訳することで翻訳候補を抽出する。
そして、抽出された候補を、自己注意により目標文を生成する際に、デコーダが参加するデコーダ入力のプレフィックスとして付加する。
En-Zh と En-Ru で行った実験により,提案手法はエンティティの翻訳精度と全体的な翻訳品質の向上に有効であり,エンティティエラー率を最大35%,BLEU を 0.85 ,COMET を最大 13.8 で向上させることができた。
関連論文リスト
- Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual
Labeled Sequence Translation [113.99145386490639]
言語間NERは、整列した言語間表現や機械翻訳結果を通じて、言語間で知識を伝達することができる。
ゼロショット言語間NERを実現するために,クロスランガル・エンティティ・プロジェクション・フレームワーク(CROP)を提案する。
多言語ラベル付きシーケンス翻訳モデルを用いて、タグ付けされたシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。
論文 参考訳(メタデータ) (2022-10-13T13:32:36Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Unsupervised Neural Machine Translation with Generative Language Models
Only [19.74865387759671]
生成事前学習言語モデルから、最先端の教師なしニューラルネットワーク翻訳システムを導出する方法を示す。
本手法は, 数発増幅, 蒸留, 逆翻訳の3段階からなる。
論文 参考訳(メタデータ) (2021-10-11T17:35:34Z) - Improving Multilingual Translation by Representation and Gradient
Regularization [82.42760103045083]
表現レベルと勾配レベルの両方でNMTモデルを正規化するための共同手法を提案する。
提案手法は,オフターゲット翻訳の発生率の低減とゼロショット翻訳性能の向上に有効であることを示す。
論文 参考訳(メタデータ) (2021-09-10T10:52:21Z) - Sentiment-based Candidate Selection for NMT [2.580271290008534]
本稿では,機械翻訳(mt)候補選択プロセスに自動感情スコアを組み込むデコーダ側手法を提案する。
我々は、英語とスペイン語の感情分類器を訓練し、ビームサーチによるベースラインMTモデルによって生成されたn-best候補を用いて、原文の感情スコアと翻訳の絶対差を最小化する候補を選択する。
人間の評価結果から,パイプライン上に構築されたオープンソースのMTモデルと比較して,ベースライン翻訳は口語的,感情重大なソーステキストよりも正確であることが示唆された。
論文 参考訳(メタデータ) (2021-04-10T19:01:52Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。