論文の概要: Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction
- arxiv url: http://arxiv.org/abs/2105.05498v1
- Date: Wed, 12 May 2021 08:11:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-13 12:35:06.603042
- Title: Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction
- Title(参考訳): ソースコンディショニングマスクスパン予測による語彙制約付きニューラルマシン翻訳の改善
- Authors: Gyubok Lee, Seongjun Yang, Edward Choi
- Abstract要約: 本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
- 参考スコア(独自算出の注目度): 6.46964825569749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating accurate terminology is a crucial component for the practicality
and reliability of neural machine translation (NMT) systems. To address this,
lexically constrained NMT explores various methods to ensure pre-specified
words and phrases to appear in the translations. In many cases, however, those
methods are evaluated on general domain corpora, where the terms are mostly
uni- and bi-grams (>98%). In this paper, we instead tackle a more challenging
setup consisting of domain-specific corpora with much longer n-gram and highly
specialized terms. To encourage span-level representations in generation, we
additionally impose a source-sentence conditioned masked span prediction loss
in the decoder and observe improvements on both terminology translation as well
as BLEU scores. Experimental results on three domain-specific corpora in two
language pairs demonstrate that the proposed training scheme can improve the
performance of existing lexically constrained methods that can operate both
with or without a term dictionary at test time.
- Abstract(参考訳): 正確な用語の生成は、ニューラルネットワーク翻訳(nmt)システムの実用性と信頼性にとって重要な要素である。
これに対処するため、レキシカル制約のあるnmtは、翻訳に予め規定された単語やフレーズが現れるように、様々な方法を探索する。
しかし多くの場合、これらの手法は概ねユニグラムとビグラム(>98%)の一般ドメインコーパスで評価される。
本稿では,より長いn-gramと高度専門用語を持つドメイン固有コーパスからなる,より困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加し、BLEUスコアとともに用語翻訳の改善を観察する。
2つの言語ペアにおける3つのドメイン特化コーパスの実験結果から,提案手法は,テスト時の用語辞書の有無に関わらず動作可能な既存の語彙制約付き手法の性能を向上させることができることが示された。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Learning Homographic Disambiguation Representation for Neural Machine
Translation [20.242134720005467]
ニューラル・マシン・トランスレーション(NMT)において、同じ綴りだが異なる意味を持つ単語であるホモグラフは依然として困難である
我々は、潜伏空間におけるNMT問題に取り組むための新しいアプローチを提案する。
まず、自然言語推論(NLI)タスクで普遍的な文表現を学ぶために、エンコーダ(別名ホモグラフィックエンコーダ)を訓練する。
さらに、ホモグラフベースの合成WordNetを用いてエンコーダを微調整し、文から単語集合表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T13:42:59Z) - DICTDIS: Dictionary Constrained Disambiguation for Improved NMT [50.888881348723295]
我々は辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDictDisを提案する。
我々は、規制、金融、工学を含む様々な分野において、英語・ヒンディー語・英語・ドイツ語文に関する広範な実験を通じて、DictDisの有用性を実証する。
論文 参考訳(メタデータ) (2022-10-13T13:04:16Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Contextualized Semantic Distance between Highly Overlapped Texts [85.1541170468617]
テキスト編集や意味的類似性評価といった自然言語処理タスクにおいて、ペア化されたテキストに重複が頻繁に発生する。
本稿では,マスク・アンド・予測戦略を用いてこの問題に対処することを目的とする。
本稿では,最も長い単語列の単語を隣接する単語とみなし,その位置の分布を予測するためにマスク付き言語モデリング(MLM)を用いる。
セマンティックテキスト類似性の実験では、NDDは様々な意味的差異、特に高い重なり合うペアテキストに対してより敏感であることが示されている。
論文 参考訳(メタデータ) (2021-10-04T03:59:15Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Sentence Alignment with Parallel Documents Helps Biomedical Machine
Translation [0.5430741734728369]
本研究は、新しい教師なし文アライメント手法を示し、生体医学的ニューラルネットワーク翻訳(NMT)システムの訓練における特徴を探求する。
二言語間単語の類似性を評価するために,二言語間単語埋め込みの構築には単純かつ効果的な手法を用いる。
提案手法は1対1および多対多のケースで高い精度を達成した。
論文 参考訳(メタデータ) (2021-04-17T16:09:30Z) - Decoding Time Lexical Domain Adaptationfor Neural Machine Translation [7.628949147902029]
特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
論文 参考訳(メタデータ) (2021-01-02T11:06:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。