論文の概要: Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation
- arxiv url: http://arxiv.org/abs/2210.04545v1
- Date: Mon, 10 Oct 2022 10:30:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 16:53:48.496878
- Title: Automatic Evaluation and Analysis of Idioms in Neural Machine
Translation
- Title(参考訳): ニューラルマシン翻訳におけるイディオムの自動評価と解析
- Authors: Christos Baziotis, Prashant Mathur, Eva Hasler
- Abstract要約: 人間の関与なしにリテラル翻訳誤りの頻度を測定するための新しい指標を提案する。
モノリンガル事前学習の役割を探求し、それが実質的な改善をもたらすことを発見した。
ランダムなイディオムモデルは、文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
- 参考スコア(独自算出の注目度): 12.227312923011986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A major open problem in neural machine translation (NMT) is the translation
of idiomatic expressions, such as "under the weather". The meaning of these
expressions is not composed by the meaning of their constituent words, and NMT
models tend to translate them literally (i.e., word-by-word), which leads to
confusing and nonsensical translations. Research on idioms in NMT is limited
and obstructed by the absence of automatic methods for quantifying these
errors. In this work, first, we propose a novel metric for automatically
measuring the frequency of literal translation errors without human
involvement. Equipped with this metric, we present controlled translation
experiments with models trained in different conditions (with/without the
test-set idioms) and across a wide range of (global and targeted) metrics and
test sets. We explore the role of monolingual pretraining and find that it
yields substantial targeted improvements, even without observing any
translation examples of the test-set idioms. In our analysis, we probe the role
of idiom context. We find that the randomly initialized models are more local
or "myopic" as they are relatively unaffected by variations of the idiom
context, unlike the pretrained ones.
- Abstract(参考訳): ニューラルマシン翻訳(NMT)の大きな問題は、"Under the weather"のような慣用的な表現の翻訳である。
これらの表現の意味は構成語の意味だけでは構成されておらず、nmtモデルは文字通り(単語ごとに)翻訳する傾向があり、混乱と非意味翻訳に繋がる。
NMTにおけるイディオムの研究は、これらの誤りを定量化する自動手法が存在しないことによって制限され、妨げられる。
本稿では,まず,人間の関与なしにリテラル翻訳誤りの頻度を自動的に測定する新しい指標を提案する。
この指標を具備し、異なる条件(テストセットイディオムなしで)で訓練されたモデルと、幅広い(グローバルで対象とする)メトリクスとテストセットで、制御された翻訳実験を示す。
我々は,単言語前訓練の役割を探究し,テストセットのイディオムの翻訳例を一切観察することなく,実質的な改善をもたらすことを見出した。
本分析では,イディオム・コンテクストの役割を解明する。
ランダムに初期化されたモデルは、事前訓練されたモデルとは異なり、イディオムの文脈の変化の影響を受けないため、より局所的あるいは「ミオピック」であることが判明した。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Towards Effective Disambiguation for Machine Translation with Large
Language Models [65.80775710657672]
我々は「あいまいな文」を翻訳する大規模言語モデルの能力について研究する。
実験の結果,提案手法はDeepLやNLLBといった最先端システムと5つの言語方向のうち4つで一致し,性能を向上できることがわかった。
論文 参考訳(メタデータ) (2023-09-20T22:22:52Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Extrinsic Evaluation of Machine Translation Metrics [78.75776477562087]
文レベルでの翻訳と翻訳の良さを区別する上で,自動尺度が信頼性が高いかどうかは不明である。
我々は,3つの下流言語タスクにおいて,最も広く使用されているMTメトリクス(chrF,COMET,BERTScoreなど)のセグメントレベル性能を評価する。
実験の結果,各指標は下流結果の外部評価と負の相関を示すことがわかった。
論文 参考訳(メタデータ) (2022-12-20T14:39:58Z) - Can Transformer be Too Compositional? Analysing Idiom Processing in
Neural Machine Translation [55.52888815590317]
リテラル表現とは異なり、イディオムの意味はその部分から直接従わない。
NMTモデルは、しばしばイディオムを正確に、過剰に生成し、文字通り翻訳することができない。
支配的なNMTモデルであるTransformerの力学において,イディオムの非合成性が反映されているかを検討する。
論文 参考訳(メタデータ) (2022-05-30T17:59:32Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Investigating Failures of Automatic Translation in the Case of
Unambiguous Gender [13.58884863186619]
トランスフォーマーベースのモデルは、ニューラルマシン翻訳(NMT)のための現代の作業馬です。
我々は、名詞の性別をマークしない言語から他の名詞に翻訳することに関して、トランスフォーマーモデルによる体系的で初歩的なエラーのクラスを観察する。
トランスベースのNMTモデルがジェンダーを正しく翻訳する能力を測定するための評価スキームとデータセットをリリースします。
論文 参考訳(メタデータ) (2021-04-16T00:57:36Z) - It's not a Non-Issue: Negation as a Source of Error in Machine
Translation [33.991817055535854]
本稿では,17の翻訳方向をテストベッドとして用いた機械翻訳システムにおいて,翻訳否定が問題となるかを検討する。
実際、否定の存在は下流の品質に大きく影響し、場合によっては60%以上の品質低下をもたらします。
論文 参考訳(メタデータ) (2020-10-12T03:34:44Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。