論文の概要: Testing Machine Translation via Referential Transparency
- arxiv url: http://arxiv.org/abs/2004.10361v2
- Date: Sun, 28 Feb 2021 12:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-10 18:32:05.134677
- Title: Testing Machine Translation via Referential Transparency
- Title(参考訳): 参照透明性による機械翻訳のテスト
- Authors: Pinjia He, Clara Meister, Zhendong Su
- Abstract要約: 本稿では,機械翻訳ソフトウェアの検証方法として,RTI(Referenceentially transparent inputs)を提案する。
私たちの実践的実装であるPurityは、このプロパティが翻訳によって壊れていることを検知します。
RTIを評価するために、Google TranslateとBing Microsoft Translatorを200のラベルのない文でテストするためにPurityを使用します。
- 参考スコア(独自算出の注目度): 28.931196266344926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation software has seen rapid progress in recent years due to
the advancement of deep neural networks. People routinely use machine
translation software in their daily lives, such as ordering food in a foreign
restaurant, receiving medical diagnosis and treatment from foreign doctors, and
reading international political news online. However, due to the complexity and
intractability of the underlying neural networks, modern machine translation
software is still far from robust and can produce poor or incorrect
translations; this can lead to misunderstanding, financial loss, threats to
personal safety and health, and political conflicts. To address this problem,
we introduce referentially transparent inputs (RTIs), a simple, widely
applicable methodology for validating machine translation software. A
referentially transparent input is a piece of text that should have similar
translations when used in different contexts. Our practical implementation,
Purity, detects when this property is broken by a translation. To evaluate RTI,
we use Purity to test Google Translate and Bing Microsoft Translator with 200
unlabeled sentences, which detected 123 and 142 erroneous translations with
high precision (79.3% and 78.3%). The translation errors are diverse, including
examples of under-translation, over-translation, word/phrase mistranslation,
incorrect modification, and unclear logic.
- Abstract(参考訳): 近年,深層ニューラルネットワークの進歩により,機械翻訳ソフトウェアが急速に進歩している。
外国のレストランで食事を注文したり、外国の医師から診断や治療を受けたり、国際政治ニュースをオンラインで読むなど、日常的に機械翻訳ソフトを使う。
しかし、基盤となるニューラルネットワークの複雑さと難易度のため、現代の機械翻訳ソフトウェアはまだ堅牢には程遠いため、誤解、金銭的損失、個人の安全と健康への脅威、政治的対立につながる可能性がある。
そこで本研究では,機械翻訳ソフトウェアを検証するための簡易かつ広く適用可能な手法であるrtis(re referentially transparent inputs)を提案する。
参照的に透明な入力は、異なる文脈で使われる場合、同様の翻訳を持つべきテキストである。
私たちの実用的な実装であるpurityは、このプロパティが翻訳によって破られたときに検出します。
RTIを評価するために、Google TranslateとBing Microsoft Translatorを200のラベルのない文でテストし、高い精度(79.3%と78.3%)で123と142の誤訳を検出した。
翻訳誤りは多様であり、過翻訳、過剰翻訳、単語/フレーズの誤訳、不正な修正、不明瞭な論理などがある。
関連論文リスト
- Understanding and Addressing the Under-Translation Problem from the Perspective of Decoding Objective [72.83966378613238]
最新のニューラル・マシン・トランスレーション(NMT)システムでは、アンダー・トランスレーションとオーバー・トランスレーションの2つの課題が残っている。
我々は,NMTにおけるアンダートランスレーションの根本原因を詳細に分析し,デコード目的の観点から解説する。
本研究は,低翻訳の検知器としてEOS(End Of Sentence)予測の信頼性を活用し,低翻訳のリスクが高い候補を罰する信頼性に基づくペナルティを強化することを提案する。
論文 参考訳(メタデータ) (2024-05-29T09:25:49Z) - Machine Translation Models are Zero-Shot Detectors of Translation Direction [46.41883195574249]
平行テキストの翻訳方向を検出することは、機械翻訳訓練や評価に応用できるが、盗作や偽造の主張を解消するといった法医学的応用もある。
本研究では,翻訳文や機械翻訳文でよく知られた単純化効果によって動機付けられた,$p(texttranslation|text Origin)>p(textgenic|texttranslation)$という単純な仮説に基づいて,翻訳方向検出のための教師なしアプローチを検討する。
論文 参考訳(メタデータ) (2024-01-12T18:59:02Z) - Machine Translation Testing via Syntactic Tree Pruning [19.023809217746955]
誤訳は、金銭的損失など、深刻な結果をもたらす可能性がある。
基礎となるニューラルネットワークの複雑さと難易度のため、機械翻訳システムのテストは困難である。
論文 参考訳(メタデータ) (2024-01-01T13:28:46Z) - Crossing the Threshold: Idiomatic Machine Translation through Retrieval
Augmentation and Loss Weighting [66.02718577386426]
慣用的な翻訳と関連する問題を簡易に評価する。
我々は,変圧器をベースとした機械翻訳モデルが慣用的な翻訳に対して正しくデフォルトとなる点を明らかにするための合成実験を行った。
自然慣用句の翻訳を改善するために, 単純かつ効果的な2つの手法を導入する。
論文 参考訳(メタデータ) (2023-10-10T23:47:25Z) - Mitigating Hallucinations and Off-target Machine Translation with
Source-Contrastive and Language-Contrastive Decoding [53.84948040596055]
修正された復号化目標を用いて、障害ケースを緩和する2つの関連手法を提案する。
大規模多言語モデルM2M-100 (418M) とSMaLL-100の実験は、これらの手法が幻覚やターゲット外の翻訳を抑制することを示した。
論文 参考訳(メタデータ) (2023-09-13T17:15:27Z) - The Best of Both Worlds: Combining Human and Machine Translations for
Multilingual Semantic Parsing with Active Learning [50.320178219081484]
人文翻訳と機械翻訳の両方の長所を生かした能動的学習手法を提案する。
理想的な発話選択は、翻訳されたデータの誤りとバイアスを著しく低減することができる。
論文 参考訳(メタデータ) (2023-05-22T05:57:47Z) - Translate your gibberish: black-box adversarial attack on machine
translation systems [0.0]
我々は、ロシア語から英語への翻訳作業において、最先端の機械翻訳ツールを騙すための簡単なアプローチを提示する。
Google、DeepL、Yandexなど多くのオンライン翻訳ツールが、非意味な逆入力クエリに対して間違ったあるいは攻撃的な翻訳を生成する可能性があることを示す。
この脆弱性は、新しい言語を理解することを妨げ、単に機械翻訳システムを使用する際のユーザエクスペリエンスを悪化させる可能性がある。
論文 参考訳(メタデータ) (2023-03-20T09:52:52Z) - Easy Guided Decoding in Providing Suggestions for Interactive Machine
Translation [14.615314828955288]
我々は、新しい制約付きデコーディングアルゴリズム、すなわちPrefix Suffix Guided Decoding (PSGD)を提案する。
PSGDは平均で10.87ドルのBLEUと8.62ドルのBLEUをWeTSとWMT 2022のTranslation Suggestionデータセットで改善している。
論文 参考訳(メタデータ) (2022-11-14T03:40:02Z) - Leveraging Automated Unit Tests for Unsupervised Code Translation [34.84910520660154]
本稿では,無効翻訳をフィルタリングする自動単体テストシステムを提案する。
このフィルタデータセットを用いて教師なしモデルの微調整を行うことで,翻訳のノイズを著しく低減できることがわかった。
特に、Java $to$ Python と Python $to$ C++ は、それぞれ 16% と 24% よりも優れています。
論文 参考訳(メタデータ) (2021-10-13T15:08:43Z) - It's Easier to Translate out of English than into it: Measuring Neural
Translation Difficulty by Cross-Mutual Information [90.35685796083563]
クロスミューチュアル情報(英: Cross-mutual information、XMI)は、機械翻訳の難易度に関する非対称情報理論の指標である。
XMIは、ほとんどのニューラルマシン翻訳モデルの確率的性質を利用する。
本稿では,現代ニューラル翻訳システムを用いた言語間翻訳の難易度に関する最初の体系的および制御的な研究について述べる。
論文 参考訳(メタデータ) (2020-05-05T17:38:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。