論文の概要: Comparing Formulaic Language in Human and Machine Translation: Insight
from a Parliamentary Corpus
- arxiv url: http://arxiv.org/abs/2206.10919v1
- Date: Wed, 22 Jun 2022 08:59:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 00:59:20.840306
- Title: Comparing Formulaic Language in Human and Machine Translation: Insight
from a Parliamentary Corpus
- Title(参考訳): 人間と機械翻訳におけるフォーミュラ言語の比較--議会コーパスからの考察
- Authors: Yves Bestgen
- Abstract要約: このテキストは、DeepL、Google Translate、Microsoft Translatorの3つのよく知られたニューラルネットワーク翻訳システムによって、フランス語から英語に翻訳された。
その結果, ニュースコーパスの観測結果が確認できたが, 違いは少ない。
彼らは、通常、議会のコーパスのようなよりリテラルな翻訳をもたらすテキストのジャンルを使うことが、人間と機械の翻訳を比較する際に好ましいことを示唆している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A recent study has shown that, compared to human translations, neural machine
translations contain more strongly-associated formulaic sequences made of
relatively high-frequency words, but far less strongly-associated formulaic
sequences made of relatively rare words. These results were obtained on the
basis of translations of quality newspaper articles in which human translations
can be thought to be not very literal. The present study attempts to replicate
this research using a parliamentary corpus. The text were translated from
French to English by three well-known neural machine translation systems:
DeepL, Google Translate and Microsoft Translator. The results confirm the
observations on the news corpus, but the differences are less strong. They
suggest that the use of text genres that usually result in more literal
translations, such as parliamentary corpora, might be preferable when comparing
human and machine translations. Regarding the differences between the three
neural machine systems, it appears that Google translations contain fewer
highly collocational bigrams, identified by the CollGram technique, than Deepl
and Microsoft translations.
- Abstract(参考訳): 最近の研究では、人間の翻訳と比較して、ニューラルマシン翻訳は比較的高周波の単語で作られたより強い関連式列を含むが、比較的稀な単語で作られた強い関連式列ははるかに少ないことが示されている。
これらの結果は、人間の翻訳があまりリテラルではないと考えられる高品質な新聞記事の翻訳に基づいて得られた。
本研究では, この研究を議会コーパスを用いて再現しようとする。
このテキストは、deepl、google translate、microsoft translatorの3つの有名なニューラルマシン翻訳システムによってフランス語から英語に翻訳された。
その結果, ニュースコーパスの観測結果が確認できたが, 違いは少ない。
彼らは、通常、議会コーパスのような、よりリテラルな翻訳をもたらすテキストジャンルの使用は、人間と機械の翻訳を比較する際に望ましいと示唆している。
3つのニューラルマシンシステムの違いに関して、Google翻訳はDeeplやMicrosoft翻訳よりも、ColllGram技術によって識別される、高いコロケーションのビッグラムを少なく含んでいるようだ。
関連論文リスト
- Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - DEEP: DEnoising Entity Pre-training for Neural Machine Translation [123.6686940355937]
機械翻訳モデルは通常、トレーニングコーパスで稀な名前付きエンティティの翻訳を貧弱に生成することが示されている。
文中の名前付きエンティティ翻訳精度を向上させるために,大量のモノリンガルデータと知識ベースを利用するDenoising Entity Pre-training法であるDEEPを提案する。
論文 参考訳(メタデータ) (2021-11-14T17:28:09Z) - Monotonic Simultaneous Translation with Chunk-wise Reordering and
Refinement [38.89496608319392]
本稿では,全文翻訳コーパスの目的側を並べ替え,洗練するアルゴリズムを提案する。
ソースとターゲットの文間の単語/フレーズは、単語アライメントと非自己回帰型ニューラルマシン翻訳を用いて、主に単調に配列される。
提案手法はBLEUのスコアを改良し,結果の翻訳により文の単調性が向上する。
論文 参考訳(メタデータ) (2021-10-18T22:51:21Z) - Using CollGram to Compare Formulaic Language in Human and Neural Machine
Translation [0.0]
質の高い新聞記事の人間とニューラルマシン翻訳における公式シーケンスの比較では、ニューラルマシン翻訳は低周波であるが強関連な公式シーケンスを含んでいることが示されている。
これらの差は統計的に有意であり、効果の大きさはほぼ常に中程度であった。
論文 参考訳(メタデータ) (2021-07-08T06:30:35Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z) - Neural Machine Translation System of Indic Languages -- An Attention
based Approach [0.5139874302398955]
インドでは、ほとんどの言語は先祖の言語であるサンスクリットに由来する。
本稿では,ヒンディー語やグジャラート語などのインド語を効率的に翻訳できるニューラルネットワーク翻訳システム(NMT)を提案する。
論文 参考訳(メタデータ) (2020-02-02T07:15:18Z) - Urdu-English Machine Transliteration using Neural Networks [0.0]
本稿では,教師なし言語に依存しない予測最大化(EM)に基づく翻訳手法を提案する。
システムは、パラレルコーパスからパターンと語彙外単語を学習し、明示的に音訳コーパスで学習する必要はない。
論文 参考訳(メタデータ) (2020-01-12T17:30:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。