論文の概要: Learning Homographic Disambiguation Representation for Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2304.05860v2
- Date: Thu, 13 Apr 2023 00:31:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 10:32:15.483059
- Title: Learning Homographic Disambiguation Representation for Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳のためのホログラフィの曖昧さ表現の学習
- Authors: Weixuan Wang, Wei Peng and Qun Liu
- Abstract要約: ニューラル・マシン・トランスレーション(NMT)において、同じ綴りだが異なる意味を持つ単語であるホモグラフは依然として困難である
我々は、潜伏空間におけるNMT問題に取り組むための新しいアプローチを提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶために、エンコーダ(別名ホモグラフィックエンコーダ)を訓練する。
さらに、ホモグラフベースの合成WordNetを用いてエンコーダを微調整し、文から単語集合表現を学習する。
- 参考スコア(独自算出の注目度): 20.242134720005467
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Homographs, words with the same spelling but different meanings, remain
challenging in Neural Machine Translation (NMT). While recent works leverage
various word embedding approaches to differentiate word sense in NMT, they do
not focus on the pivotal components in resolving ambiguities of homographs in
NMT: the hidden states of an encoder. In this paper, we propose a novel
approach to tackle homographic issues of NMT in the latent space. We first
train an encoder (aka "HDR-encoder") to learn universal sentence
representations in a natural language inference (NLI) task. We further
fine-tune the encoder using homograph-based synset sentences from WordNet,
enabling it to learn word-level homographic disambiguation representations
(HDR). The pre-trained HDR-encoder is subsequently integrated with a
transformer-based NMT in various schemes to improve translation accuracy.
Experiments on four translation directions demonstrate the effectiveness of the
proposed method in enhancing the performance of NMT systems in the BLEU scores
(up to +2.3 compared to a solid baseline). The effects can be verified by other
metrics (F1, precision, and recall) of translation accuracy in an additional
disambiguation task. Visualization methods like heatmaps, T-SNE and translation
examples are also utilized to demonstrate the effects of the proposed method.
- Abstract(参考訳): 同じ綴りだが異なる意味を持つホモグラフは、ニューラルマシン翻訳(nmt)において依然として挑戦的である。
最近の研究は、NMTにおける単語感覚の区別に様々な単語埋め込みアプローチを利用しているが、NMTにおけるホモグラフのあいまいさ(エンコーダの隠れ状態)を解決するための重要な要素には焦点を当てていない。
本稿では,潜伏空間におけるNMTのホモグラフィック問題に取り組むための新しい手法を提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶためにエンコーダ(HDR-encoder)を訓練する。
我々はさらに、WordNetからホモグラフベースの合成文を用いてエンコーダを微調整し、単語レベルのホモグラフの曖昧さ表現(HDR)を学習する。
事前訓練されたHDRエンコーダは、変換精度を向上させるために様々なスキームで変換器ベースのNTTと統合される。
4つの翻訳方向に関する実験は、bleuスコアにおけるnmtシステムの性能向上(固形ベースラインと比較して最大+2.3まで)における提案手法の有効性を示す。
この効果は、追加の曖昧化タスクにおける翻訳精度の他の指標(F1、精度、リコール)によって検証することができる。
また, 熱マップやT-SNE, 翻訳例などの可視化手法を用いて, 提案手法の効果を実証する。
関連論文リスト
- Code-Switching with Word Senses for Pretraining in Neural Machine
Translation [107.23743153715799]
ニューラルネットワーク翻訳のための単語センス事前学習(WSP-NMT)について紹介する。
WSP-NMTは、知識ベースからの単語感覚情報を活用した多言語NMTモデルの事前学習のためのエンドツーエンドアプローチである。
実験の結果,全体の翻訳品質が大幅に向上した。
論文 参考訳(メタデータ) (2023-10-21T16:13:01Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Towards Reliable Neural Machine Translation with Consistency-Aware
Meta-Learning [24.64700139151659]
現在のニューラル機械翻訳(NMT)システムは信頼性の欠如に悩まされている。
本稿では,モデルに依存しないメタラーニング(MAML)アルゴリズムをベースとした,一貫性を考慮したメタラーニング(CAML)フレームワークを提案する。
我々は、NIST中国語から英語へのタスク、3つのWMT翻訳タスク、TED M2Oタスクについて実験を行った。
論文 参考訳(メタデータ) (2023-03-20T09:41:28Z) - Neural Machine Translation with Contrastive Translation Memories [71.86990102704311]
Retrieval-augmented Neural Machine Translationモデルは、多くの翻訳シナリオで成功している。
そこで本論文では,新たに検索拡張NMTを提案し,ソース文と相似なコントラスト検索された翻訳記憶をモデル化する。
訓練段階では、目標文に対する各TMの健全な特徴を学習するために、マルチTMコントラスト学習目標を導入する。
論文 参考訳(メタデータ) (2022-12-06T17:10:17Z) - Towards Opening the Black Box of Neural Machine Translation: Source and
Target Interpretations of the Transformer [1.8594711725515678]
ニューラルネットワーク翻訳(NMT)では、各トークン予測はソース文とターゲットプレフィックスに条件付けされる。
NMTにおける解釈可能性に関するこれまでの研究は、原文トークンの属性のみに焦点を当ててきた。
本稿では,完全な入力トークン属性を追跡する解釈可能性手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T20:59:14Z) - When do Contrastive Word Alignments Improve Many-to-many Neural Machine
Translation? [33.28706502928905]
本研究は,多対多NMTにおける単語アライメントを活用するための単語レベルのコントラスト目的を提案する。
解析により,多くのNMTにおいて,エンコーダの文検索性能は翻訳品質と高い相関関係があることが判明した。
論文 参考訳(メタデータ) (2022-04-26T09:07:51Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z) - Encodings of Source Syntax: Similarities in NMT Representations Across
Target Languages [3.464656011246703]
NMTエンコーダは,NMTの対象言語に関係なく,類似したソース構文を学習する。
NMTエンコーダは、いくつかの構成ラベル予測タスクで直接訓練されたRNNより優れている。
論文 参考訳(メタデータ) (2020-05-17T06:41:32Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。