論文の概要: Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting
- arxiv url: http://arxiv.org/abs/2310.07081v1
- Date: Tue, 10 Oct 2023 23:47:25 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:06:37.502110
- Title: Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting
- Title(参考訳): しきい値の交差:検索強化と損失重み付けによる慣用機械翻訳
- Authors: Emmy Liu, Aditi Chaudhary, Graham Neubig
- Abstract要約: 慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
- 参考スコア(独自算出の注目度): 66.02718577386426
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Idioms are common in everyday language, but often pose a challenge to
translators because their meanings do not follow from the meanings of their
parts. Despite significant advances, machine translation systems still struggle
to translate idiomatic expressions. We provide a simple characterization of
idiomatic translation and related issues. This allows us to conduct a synthetic
experiment revealing a tipping point at which transformer-based machine
translation models correctly default to idiomatic translations. To expand
multilingual resources, we compile a dataset of ~4k natural sentences
containing idiomatic expressions in French, Finnish, and Japanese. To improve
translation of natural idioms, we introduce two straightforward yet effective
techniques: the strategic upweighting of training loss on potentially idiomatic
sentences, and using retrieval-augmented models. This not only improves the
accuracy of a strong pretrained MT model on idiomatic sentences by up to 13% in
absolute accuracy, but also holds potential benefits for non-idiomatic
sentences.
- Abstract(参考訳): イディオムは日常の言語では一般的であるが、その意味は部分の意味に従わないため、翻訳者にとってしばしば挑戦となる。
大幅な進歩にもかかわらず、機械翻訳システムはまだ慣用的な表現の翻訳に苦戦している。
我々は、慣用翻訳とその関連問題を簡易に解析する。
これにより、トランスフォーマーベースの機械翻訳モデルが、慣用的な翻訳をデフォルトとするティッピングポイントを明らかにする合成実験を行うことができる。
多言語リソースを拡張するために,フランス語,フィンランド語,日本語の慣用表現を含む4kの自然文のデータセットをコンパイルする。
自然慣用句の翻訳を改善するために,潜在的慣用文に対する訓練損失の戦略的増大と,検索強化モデルを用いた2つの手法を導入する。
これは、慣用文に対する強い事前訓練されたMTモデルの精度を、絶対精度で最大13%向上させるだけでなく、非慣用文に対する潜在的な利益をもたらす。
関連論文リスト
- The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - Towards Debiasing Translation Artifacts [15.991970288297443]
確立されたバイアス除去手法を拡張して,翻訳文の削減のための新しい手法を提案する。
我々は、反復的ヌル空間投影(INLP)アルゴリズムを用いて、デバイアス前後の分類精度を計測することにより、文レベルと単語レベルの両方で翻訳文が削減されることを示す。
我々の知る限りでは、これは潜伏埋め込み空間で表現される翻訳語をデビアスする最初の研究である。
論文 参考訳(メタデータ) (2022-05-16T21:46:51Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Modelling Latent Translations for Cross-Lingual Transfer [47.61502999819699]
従来のパイプラインの2つのステップ(翻訳と分類)を1つのモデルに統合する新しい手法を提案する。
我々は,多言語NLUタスクにおける新しい潜時翻訳モデルの評価を行った。
ゼロショットと数ショットの学習設定の両方で、平均2.7の精度ポイントのゲインを報告します。
論文 参考訳(メタデータ) (2021-07-23T17:11:27Z) - Translation Artifacts in Cross-lingual Transfer Learning [51.66536640084888]
機械翻訳は、既存の言語間モデルに顕著な影響を与える微妙なアーティファクトを導入することができることを示す。
自然言語の推論では、前提と仮説を独立に翻訳することで、それらの間の語彙的重複を減らすことができる。
また、XNLIでは、それぞれ4.3点と2.8点の翻訳とゼロショットのアプローチを改善している。
論文 参考訳(メタデータ) (2020-04-09T17:54:30Z) - Incorporating Bilingual Dictionaries for Low Resource Semi-Supervised
Neural Machine Translation [5.958653653305609]
我々は、単語・バイ・ワードの翻訳によって合成文を生成する、広く利用可能なバイリンガル辞書を組み込んだ。
これにより、高品質なコンテンツを維持しながら、モデルの語彙を自動的に拡張する。
論文 参考訳(メタデータ) (2020-04-05T02:14:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。