論文の概要: Machine Translationese: Effects of Algorithmic Bias on Linguistic
Complexity in Machine Translation
- arxiv url: http://arxiv.org/abs/2102.00287v1
- Date: Sat, 30 Jan 2021 18:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 07:46:18.255043
- Title: Machine Translationese: Effects of Algorithmic Bias on Linguistic
Complexity in Machine Translation
- Title(参考訳): 機械翻訳:アルゴリズムバイアスが機械翻訳の言語的複雑さに及ぼす影響
- Authors: Eva Vanmassenhove, Dimitar Shterionov, Matthew Gwilliam
- Abstract要約: 我々は、機械翻訳におけるジェンダーの研究を超えて、偏見の増幅がより広い意味で言語に与える影響を調査する。
我々は、異なるデータ駆動MTパラダイムによって生成された翻訳の言語的豊かさ(語彙的および形態学的レベルで)を評価する。
- 参考スコア(独自算出の注目度): 2.0625936401496237
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies in the field of Machine Translation (MT) and Natural Language
Processing (NLP) have shown that existing models amplify biases observed in the
training data. The amplification of biases in language technology has mainly
been examined with respect to specific phenomena, such as gender bias. In this
work, we go beyond the study of gender in MT and investigate how bias
amplification might affect language in a broader sense. We hypothesize that the
'algorithmic bias', i.e. an exacerbation of frequently observed patterns in
combination with a loss of less frequent ones, not only exacerbates societal
biases present in current datasets but could also lead to an artificially
impoverished language: 'machine translationese'. We assess the linguistic
richness (on a lexical and morphological level) of translations created by
different data-driven MT paradigms - phrase-based statistical (PB-SMT) and
neural MT (NMT). Our experiments show that there is a loss of lexical and
morphological richness in the translations produced by all investigated MT
paradigms for two language pairs (EN<=>FR and EN<=>ES).
- Abstract(参考訳): 機械翻訳(MT)と自然言語処理(NLP)の分野における最近の研究は、既存のモデルがトレーニングデータで観測されたバイアスを増幅していることを示している。
言語技術におけるバイアスの増幅は、主にジェンダーバイアスなどの特定の現象に関して検討されている。
本研究では,mtにおけるジェンダー研究を超越し,バイアス増幅が言語にどのような影響を及ぼすかを検討する。
アルゴリズムバイアス(algorithmic bias)を仮定する。
頻繁なパターンの悪化と頻繁でないパターンの喪失は、現在のデータセットに存在する社会バイアスを悪化させるだけでなく、人工的に貧弱な言語である'機械翻訳'につながる可能性がある。
我々は,異なるデータ駆動型MTパラダイム(PB-SMT)とニューラルMT(NMT)による翻訳の言語的富度(語彙的および形態学的レベル)を評価する。
本研究では,2つの言語ペア(EN<=>FRとEN<=>ES)のMTパラダイムが生成する翻訳に語彙的および形態学的豊かさが失われていることを示した。
関連論文リスト
- Distinguishing Translations by Human, NMT, and ChatGPT: A Linguistic and Statistical Approach [1.6982207802596105]
本研究では,(1)NMTとヒト翻訳(HT)からのChatGPT生成翻訳の識別可能性,(2)翻訳タイプの言語的特徴,(3)ChatGPT生成翻訳とHT,あるいはNMTとの類似度について検討する。
論文 参考訳(メタデータ) (2023-12-17T15:56:05Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - Examining Covert Gender Bias: A Case Study in Turkish and English
Machine Translation Models [7.648784748888186]
我々は,機械翻訳モデルにおいて,過剰性差と隠蔽性バイアスの両方の症例について検討した。
具体的には、非対称性マーキングを調査する手法を提案する。
また、人格の属性の偏りを評価し、職業的・人格的ステレオタイプについて検討する。
論文 参考訳(メタデータ) (2021-08-23T19:25:56Z) - Beyond Noise: Mitigating the Impact of Fine-grained Semantic Divergences
on Neural Machine Translation [14.645468999921961]
本研究は,トランスフォーマーモデルにおける様々な種類の細粒度セマンティックな違いの影響を解析する。
自然に発生する発散による劣化からNMTが回復するのに役立つ因子を用いた発散型NMTフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-31T16:15:35Z) - Decoding and Diversity in Machine Translation [90.33636694717954]
NMTが楽しむBLEUスコアに対して支払う費用の多様性の違いを特徴付ける。
本研究は,ジェンダー代名詞を翻訳する際に,検索が既知バイアスの正解源となることを示唆する。
論文 参考訳(メタデータ) (2020-11-26T21:09:38Z) - On Long-Tailed Phenomena in Neural Machine Translation [50.65273145888896]
最先端のニューラルネットワーク翻訳(NMT)モデルは、低周波トークンの生成に苦労する。
条件付きテキスト生成における構造的依存関係にモデルトレーニングを適応させるために,新たな損失関数である反焦点損失を提案する。
提案手法は,複数の機械翻訳(MT)データセットに対して有効であり,クロスエントロピーよりも顕著に向上することを示す。
論文 参考訳(メタデータ) (2020-10-10T07:00:57Z) - Assessing the Bilingual Knowledge Learned by Neural Machine Translation
Models [72.56058378313963]
NMTモデルで学習したバイリンガル知識をフレーズテーブルで評価することで,このギャップを埋める。
NMTモデルは、単純なものから複雑なものまでパターンを学習し、トレーニング例から本質的なバイリンガル知識を抽出する。
論文 参考訳(メタデータ) (2020-04-28T03:44:34Z) - On the Integration of LinguisticFeatures into Statistical and Neural
Machine Translation [2.132096006921048]
機械翻訳に対する統計的アプローチの強みと人間の翻訳方法の相違について検討する。
自動翻訳システムがより正確な翻訳を行うために欠落している言語情報を同定する。
我々は、過一般化または「アルゴミックバイアス」をニューラルMTの潜在的な欠点として認識し、残りの言語問題の多くにリンクする。
論文 参考訳(メタデータ) (2020-03-31T16:03:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。