論文の概要: Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.15301v1
- Date: Mon, 30 May 2022 17:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:50:08.834499
- Title: Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation
- Title(参考訳): トランスフォーマーは構成可能か?
ニューラルマシン翻訳におけるイディオム処理の解析
- Authors: Verna Dankers, Christopher G. Lucas, Ivan Titov
- Abstract要約: リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
- 参考スコア(独自算出の注目度): 55.52888815590317
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unlike literal expressions, idioms' meanings do not directly follow from
their parts, posing a challenge for neural machine translation (NMT). NMT
models are often unable to translate idioms accurately and over-generate
compositional, literal translations. In this work, we investigate whether the
non-compositionality of idioms is reflected in the mechanics of the dominant
NMT model, Transformer, by analysing the hidden states and attention patterns
for models with English as source language and one of seven European languages
as target language. When Transformer emits a non-literal translation - i.e.
identifies the expression as idiomatic - the encoder processes idioms more
strongly as single lexical units compared to literal expressions. This
manifests in idioms' parts being grouped through attention and in reduced
interaction between idioms and their context. In the decoder's cross-attention,
figurative inputs result in reduced attention on source-side tokens. These
results suggest that Transformer's tendency to process idioms as compositional
expressions contributes to literal translations of idioms.
- Abstract(参考訳): リテラル式とは異なり、イディオムの意味はそれらの部分から直接従わないため、ニューラルマシン翻訳(NMT)の課題を提起する。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
本研究では,英語を母語とし,ヨーロッパ7言語のうちの1言語を対象言語とするモデルの隠れた状態と注意パターンを分析し,イディオムの非結合性が支配的nmtモデルであるtransformerの力学に反映されているかどうかについて検討する。
Transformerが非リテラル翻訳(すなわち、表現を慣用的であると識別する)を出力すると、エンコーダはリテラル表現よりも単一の語彙単位としてイディオムを処理する。
これは、イディオムの部分の注意を通してグループ化され、イディオムとその文脈の間の相互作用を減少させる。
デコーダのクロスアテンションでは、図形入力はソース側トークンへの注意を減らせる。
以上の結果からトランスフォーマーがイディオムを合成表現として処理する傾向は,イディオムのリテラル翻訳に寄与することが示唆された。
関連論文リスト
- That was the last straw, we need more: Are Translation Systems Sensitive
to Disambiguating Context? [64.38544995251642]
我々は、源泉に存在している意味的あいまいさ(本研究における英語)について研究する。
我々は、リテラルと図形の両方にオープンなイディオムに焦点を当てている。
現在のMTモデルは、たとえ文脈が比喩的解釈を示しているとしても、英語のイディオムを文字通りに翻訳する。
論文 参考訳(メタデータ) (2023-10-23T06:38:49Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation [12.227312923011986]
人間の関与なしにリテラル翻訳誤りの頻度を測定するための新しい指標を提案する。
モノリンガル事前学習の役割を探求し、それが実質的な改善をもたらすことを発見した。
ランダムなイディオムモデルは、文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
論文 参考訳(メタデータ) (2022-10-10T10:30:09Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - Semantics-aware Attention Improves Neural Machine Translation [35.32217580058933]
意味情報をトランスフォーマーに注入する2つの新しいパラメータフリー手法を提案する。
そのような方法の1つはエンコーダ上でSASA(Scene-Aware Self-Attention)ヘッドを介して動作する。
もうひとつのデコーダは,Scene-Aware Cross-Attention (SACrA) ヘッダによるものだ。
論文 参考訳(メタデータ) (2021-10-13T17:58:22Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Explicit Reordering for Neural Machine Translation [50.70683739103066]
Transformer-based neural machine translation (NMT)では、位置符号化機構は、自己アテンションネットワークが順序依存でソース表現を学習するのに役立つ。
本研究では,トランスフォーマーベースのNMTに対して,このリオーダ情報を明示的にモデル化する新しいリオーダ手法を提案する。
WMT14, WAT ASPEC日本語訳, WMT17中国語訳の実証結果から, 提案手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-04-08T05:28:46Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。