論文の概要: Decoding Time Lexical Domain Adaptationfor Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2101.00421v1
- Date: Sat, 2 Jan 2021 11:06:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 07:18:18.877944
- Title: Decoding Time Lexical Domain Adaptationfor Neural Machine Translation
- Title(参考訳): 時間語彙領域適応によるニューラルネットワーク翻訳
- Authors: Nikolay Bogoychev and Pinzhen Chen
- Abstract要約: 特にタスクがリソースが少ない場合、機械翻訳システムはドメインミスマッチに対して脆弱です。
この設定では、翻訳品質を改善するための2つの簡単な方法を紹介します。
- 参考スコア(独自算出の注目度): 7.628949147902029
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation systems are vulnerable to domain mismatch, especially
when the task is low-resource. In this setting, out of domain translations are
often of poor quality and prone to hallucinations, due to the translation model
preferring to predict common words it has seen during training, as opposed to
the more uncommon ones from a different domain. We present two simple methods
for improving translation quality in this particular setting: First, we use
lexical shortlisting in order to restrict the neural network predictions by IBM
model computed alignments. Second, we perform $n$-best list reordering by
reranking all translations based on the amount they overlap with each other.
Our methods are computationally simpler and faster than alternative approaches,
and show a moderate success on low-resource settings with explicit out of
domain test sets. However, our methods lose their effectiveness when the domain
mismatch is too great, or in high resource setting.
- Abstract(参考訳): 機械翻訳システムは、特に低リソースのタスクの場合、ドメインミスマッチに対して脆弱である。
この設定では、ドメイン内翻訳はしばしば品質が悪く幻覚を起こしやすいが、これは訓練中に見た一般的な単語を予測することを好む翻訳モデルのためであり、異なるドメインのより一般的でない翻訳とは対照的である。
まず,ibmモデル計算アライメントによるニューラルネットワークの予測を制限するために,語彙的短縮リストを用いる。
次に、互いに重なり合う量に基づいて全ての翻訳を並べ替えることで、n$-bestリストの順序付けを行います。
提案手法は,他の手法よりも計算がシンプルで高速であり,ドメインテストセットの明示的な外付けで低リソース設定を適度に成功させることを示す。
しかし、ドメインミスマッチが大きすぎる場合やリソース設定が高すぎる場合、我々のメソッドは効果を失います。
関連論文リスト
- Plug, Play, and Fuse: Zero-Shot Joint Decoding via Word-Level Re-ranking Across Diverse Vocabularies [12.843274390224853]
マルチモーダル翻訳のような現実世界のタスクは、翻訳と画像処理の両方を扱うなど、これらの強みの組み合わせを必要とすることが多い。
新たなゼロショットアンサンブル戦略を提案し,デコードフェーズにおいて,追加のトレーニングを必要とせずに,異なるモデルの統合を可能にする。
提案手法では,単語レベルでのスコアを組み合わせ,単語がいつ完了するかをマルチモーダルで予測することで,復号中にビームを再ランクする。
論文 参考訳(メタデータ) (2024-08-21T04:20:55Z) - Non-Parametric Domain Adaptation for End-to-End Speech Translation [72.37869362559212]
E2E-ST(End-to-End Speech Translation)は、エラー伝播の低減、レイテンシの低減、パラメータの削減などにより注目されている。
本稿では,E2E-STシステムのドメイン適応を実現するために,ドメイン固有のテキスト翻訳コーパスを活用する新しい非パラメトリック手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T11:41:02Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - Non-Parametric Unsupervised Domain Adaptation for Neural Machine
Translation [61.27321597981737]
$k$NN-MTは、トレーニング済みニューラルネットワーク翻訳(NMT)モデルとドメイン固有のトークンレベルである$k$-nearest-neighbor検索を直接組み込むという有望な能力を示している。
対象言語におけるドメイン内単言語文を直接使用して,$k$-nearest-neighbor検索に有効なデータストアを構築する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-14T11:50:01Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Phrase-level Active Learning for Neural Machine Translation [107.28450614074002]
ドメイン内データの翻訳に所定の予算を費やすことのできる,アクティブな学習環境を提案する。
我々は、人間の翻訳者へのルーティングのために、新しいドメインの未ラベルデータから全文と個々の句を選択する。
ドイツ語と英語の翻訳タスクでは,不確実性に基づく文選択法に対して,能動的学習手法が一貫した改善を実現している。
論文 参考訳(メタデータ) (2021-06-21T19:20:42Z) - Improving Lexically Constrained Neural Machine Translation with
Source-Conditioned Masked Span Prediction [6.46964825569749]
本稿では、より長いn-gramと高度に専門化された用語を持つドメイン固有コーパスからなるより困難なセットアップに取り組む。
生成におけるスパンレベルの表現を促進するため、デコーダにソース条件付きマスク付きスパン予測損失を付加する。
2つの言語対における3つのドメイン固有コーパスの実験結果から,提案手法が既存の語彙制約手法の性能を向上させることを示す。
論文 参考訳(メタデータ) (2021-05-12T08:11:33Z) - Rapid Domain Adaptation for Machine Translation with Monolingual Data [31.70276147485463]
機械翻訳の課題の1つは、新型コロナウイルス(COVID-19)のような急激なイベントに直面して、目に見えない領域に迅速に適応する方法だ。
本稿では、教師なし翻訳の観点から、素早いドメイン適応を可能にするアプローチを提案する。
論文 参考訳(メタデータ) (2020-10-23T20:31:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。