論文の概要: What's the Difference Between Professional Human and Machine
Translation? A Blind Multi-language Study on Domain-specific MT
- arxiv url: http://arxiv.org/abs/2006.04781v1
- Date: Mon, 8 Jun 2020 17:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 01:53:42.673288
- Title: What's the Difference Between Professional Human and Machine
Translation? A Blind Multi-language Study on Domain-specific MT
- Title(参考訳): プロの人間と機械の翻訳の違いは何か?
ドメイン固有MTのブラインド多言語化
- Authors: Lukas Fischer and Samuel L\"aubli
- Abstract要約: 機械翻訳(MT)は、人間の後編集を必要とする多くのエラーを生成することが示されているが、プロの人間の翻訳(HT)がそのようなエラーを含む範囲はまだ比較されていない。
我々は、MTとHTがインターリーブされた事前翻訳文書をコンパイルし、プロの翻訳者にエラーを通知し、これらの文書をブラインド評価で後編集するよう依頼する。
MTセグメントの編集作業は3つの言語ペアのうち2つに過ぎず, 誤訳, 省略, タイポグラフィー上の問題もHTに類似していることが判明した。
- 参考スコア(独自算出の注目度): 0.6091702876917281
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine translation (MT) has been shown to produce a number of errors that
require human post-editing, but the extent to which professional human
translation (HT) contains such errors has not yet been compared to MT. We
compile pre-translated documents in which MT and HT are interleaved, and ask
professional translators to flag errors and post-edit these documents in a
blind evaluation. We find that the post-editing effort for MT segments is only
higher in two out of three language pairs, and that the number of segments with
wrong terminology, omissions, and typographical problems is similar in HT.
- Abstract(参考訳): 機械翻訳 (MT) では, 人為的後編集を必要とする誤りが多数報告されているが, 人為的翻訳 (HT) にそのような誤りが含まれている程度は, MT と HT をインターリーブした事前翻訳文書をコンパイルし, プロの翻訳者に対して, エラーのフラグ付けと後編集をブラインド評価で求めている。
mtセグメントの編集後作業は3つの言語ペアのうち2つでのみ高く,誤語,欠落,類型的問題を持つセグメントの数はhtでも同様であることがわかった。
関連論文リスト
- Prompting Large Language Models with Human Error Markings for Self-Correcting Machine Translation [11.351365352611658]
後編集(PE)は、エラーを訂正し、専門ドメインの項翻訳品質を高めるために依然として必要である。
技術的領域における正しい一貫した項翻訳の必要性に対する翻訳記憶(TM)の強化に関するパイロット研究について述べる。
論文 参考訳(メタデータ) (2024-06-04T12:43:47Z) - Cyber Risks of Machine Translation Critical Errors : Arabic Mental Health Tweets as a Case Study [3.8779763612314637]
本稿では,MTの共通利用に関わる倫理的・安全性上の問題に言及するために,機械翻訳クリティカルエラーの真正データセットを提案する。
このデータセットは、重要なエラータイプを手動で注釈付けしたアラビアのメンタルヘルスポストの誤訳を含む。
また、一般的に使われている品質指標が重大なエラーをペナルティにしないことを示すとともに、研究者のさらなる注意を喚起する重要な問題として強調する。
論文 参考訳(メタデータ) (2024-05-19T20:24:51Z) - Do GPTs Produce Less Literal Translations? [20.095646048167612]
大規模言語モデル(LLM)は多くの自然言語生成や理解タスクに対処できる汎用言語モデルとして登場した。
GPTからの英語(E-X)からの翻訳はリテラルが低い傾向にあり、機械翻訳の品質指標に類似またはより良いスコアが示されることがわかりました。
論文 参考訳(メタデータ) (2023-05-26T10:38:31Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Beyond Triplet: Leveraging the Most Data for Multimodal Machine
Translation [53.342921374639346]
マルチモーダル機械翻訳は、視覚などの他のモーダルからの情報を取り入れることで、翻訳品質を向上させることを目的としている。
従来のMMTシステムは主に視覚情報へのアクセスと利用に重点を置いており、画像関連データセット上でそれらの手法を検証する傾向がある。
本稿では,MTのための新しい手法と新しいデータセットを確立する。
論文 参考訳(メタデータ) (2022-12-20T15:02:38Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - Exploring Document-Level Literary Machine Translation with Parallel
Paragraphs from World Literature [35.1398797683712]
文献翻訳者は, 機械翻訳段落よりも, 84%の割合で人文翻訳を好んでいる。
我々は、通常のMT出力よりも出力が好ましい後編集モデルを専門家によって69%の速度で訓練する。
論文 参考訳(メタデータ) (2022-10-25T18:03:34Z) - AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations [5.8010446129208155]
マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
論文 参考訳(メタデータ) (2020-11-07T14:28:54Z) - On the Limitations of Cross-lingual Encoders as Exposed by
Reference-Free Machine Translation Evaluation [55.02832094101173]
クロスランガルエンコーダの評価は通常、教師付き下流タスクにおけるゼロショットのクロスランガル転送または教師なしのクロスランガル類似性によって行われる。
本稿では、ソーステキストと(低品質な)システム翻訳を直接比較するMT(Reference-free Machine Translation)の評価について述べる。
事前学習したM-BERTとLASERで得られた最先端の言語間セマンティック表現に基づいて,様々なメトリクスを体系的に検討する。
参照なしMT評価において,セマンティックエンコーダとしての性能は低く,その2つの重要な限界を同定する。
論文 参考訳(メタデータ) (2020-05-03T22:10:23Z) - Bootstrapping a Crosslingual Semantic Parser [74.99223099702157]
我々は、英語のような単一の言語で訓練された意味を、最小限のアノテーションで新しい言語や複数のドメインに適用する。
我々は、機械翻訳がトレーニングデータの適切な代用であるかどうかを問うとともに、英語、パラフレーズ、多言語事前学習モデルとの併用トレーニングを用いて、ブートストラップを調査するように拡張する。
論文 参考訳(メタデータ) (2020-04-06T12:05:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。