論文の概要: AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations
- arxiv url: http://arxiv.org/abs/2011.03783v1
- Date: Sat, 7 Nov 2020 14:28:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:06:26.450748
- Title: AlphaMWE: Construction of Multilingual Parallel Corpora with MWE
Annotations
- Title(参考訳): AlphaMWE:MWEアノテーションを用いた多言語並列コーパスの構築
- Authors: Lifeng Han, Gareth Jones, Alan Smeaton
- Abstract要約: マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
MWE関連翻訳において,MTシステムで発生する誤りの種類を分類する。
- 参考スコア(独自算出の注目度): 5.8010446129208155
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we present the construction of multilingual parallel corpora
with annotation of multiword expressions (MWEs). MWEs include verbal MWEs
(vMWEs) defined in the PARSEME shared task that have a verb as the head of the
studied terms. The annotated vMWEs are also bilingually and multilingually
aligned manually. The languages covered include English, Chinese, Polish, and
German. Our original English corpus is taken from the PARSEME shared task in
2018. We performed machine translation of this source corpus followed by human
post editing and annotation of target MWEs. Strict quality control was applied
for error limitation, i.e., each MT output sentence received first manual post
editing and annotation plus second manual quality rechecking. One of our
findings during corpora preparation is that accurate translation of MWEs
presents challenges to MT systems. To facilitate further MT research, we
present a categorisation of the error types encountered by MT systems in
performing MWE related translation. To acquire a broader view of MT issues, we
selected four popular state-of-the-art MT models for comparisons namely:
Microsoft Bing Translator, GoogleMT, Baidu Fanyi and DeepL MT. Because of the
noise removal, translation post editing and MWE annotation by human
professionals, we believe our AlphaMWE dataset will be an asset for
cross-lingual and multilingual research, such as MT and information extraction.
Our multilingual corpora are available as open access at
github.com/poethan/AlphaMWE.
- Abstract(参考訳): 本稿では,マルチワード表現(MWE)アノテーションを用いた多言語並列コーパスの構築について述べる。
MWEには、PPARSEME共有タスクで定義された動詞MWE(vMWEs)が含まれ、研究された用語の先頭に動詞を持つ。
注釈付き vMWE もバイリンガルかつ多言語対応である。
対象言語は英語、中国語、ポーランド語、ドイツ語である。
私たちのオリジナルの英語コーパスは2018年のparseme共有タスクから取り出されています。
このソースコーパスの機械翻訳を行い,人間のポスト編集とターゲットmweのアノテーションを行った。
エラー制限には厳密な品質管理が適用され、各mt出力文は第1の手動ポスト編集とアノテーションと第2の手動品質再チェックを受けた。
コーポラ準備中の知見の1つは、mwesの正確な翻訳がmtシステムに困難をもたらすことである。
MTのさらなる研究を容易にするため,MT系がMWE関連翻訳を行う際に遭遇する誤りの分類について述べる。
MT問題を広く把握するために、我々は、Microsoft Bing Translator、GoogleMT、Baidu Fanyi、DeepL MTの4つの一般的な最先端MTモデルを選択した。ノイズ除去、翻訳ポスト編集、MWEアノテーションにより、我々のAlphaMWEデータセットはMTや情報抽出のような言語横断的・多言語的な研究のための資産となると信じている。
我々の多言語コーパスはgithub.com/poethan/AlphaMWEでオープンアクセス可能である。
関連論文リスト
- On Translating Technical Terminology: A Translation Workflow for
Machine-Translated Acronyms [3.053989095162017]
技術的な用語、特に頭字語を翻訳する、重要なステップが見逃されていることが分かりました。
Google Translateのような最先端の機械翻訳システムは、頭字語を扱う際に誤用されることがある。
SL-TL (FR-EN) 翻訳ワークフローに追加のステップを提案し、まず、公共消費のための新しい頭字語コーパスを提供し、次に検索ベースのしきい値付けアルゴリズムを実験する。
論文 参考訳(メタデータ) (2024-09-26T15:18:34Z) - Towards Zero-Shot Multimodal Machine Translation [64.9141931372384]
本稿では,マルチモーダル機械翻訳システムの学習において,完全教師付きデータの必要性を回避する手法を提案する。
我々の手法はZeroMMTと呼ばれ、2つの目的の混合で学習することで、強いテキストのみの機械翻訳(MT)モデルを適応させることである。
本手法が完全に教師付きトレーニングデータを持たない言語に一般化されることを証明するため,CoMMuTE評価データセットをアラビア語,ロシア語,中国語の3言語に拡張した。
論文 参考訳(メタデータ) (2024-07-18T15:20:31Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Tackling Ambiguity with Images: Improved Multimodal Machine Translation
and Contrastive Evaluation [72.6667341525552]
本稿では,ニューラルアダプターとガイド付き自己注意機構を用いた,強いテキストのみのMTモデルに基づく新しいMT手法を提案する。
また,不明瞭な文とその翻訳が可能なコントラスト型多モーダル翻訳評価セットであるCoMMuTEについても紹介する。
提案手法は, 標準英語-フランス語, 英語-ドイツ語, 英語-チェコ語のベンチマークにおいて, 強いテキストのみのモデルと比較して, 競争力のある結果が得られる。
論文 参考訳(メタデータ) (2022-12-20T10:18:18Z) - DivEMT: Neural Machine Translation Post-Editing Effort Across
Typologically Diverse Languages [5.367993194110256]
DivEMTは、ニューラルネットワーク翻訳(NMT)に関する、タイプ的かつ多様なターゲット言語に対する初めての公開後研究である。
我々は、Google Translateとオープンソースの多言語モデルmBART50の2つの最先端NTTシステムの翻訳生産性への影響を評価する。
論文 参考訳(メタデータ) (2022-05-24T17:22:52Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - What's the Difference Between Professional Human and Machine
Translation? A Blind Multi-language Study on Domain-specific MT [0.6091702876917281]
機械翻訳(MT)は、人間の後編集を必要とする多くのエラーを生成することが示されているが、プロの人間の翻訳(HT)がそのようなエラーを含む範囲はまだ比較されていない。
我々は、MTとHTがインターリーブされた事前翻訳文書をコンパイルし、プロの翻訳者にエラーを通知し、これらの文書をブラインド評価で後編集するよう依頼する。
MTセグメントの編集作業は3つの言語ペアのうち2つに過ぎず, 誤訳, 省略, タイポグラフィー上の問題もHTに類似していることが判明した。
論文 参考訳(メタデータ) (2020-06-08T17:55:14Z) - MultiMWE: Building a Multi-lingual Multi-Word Expression (MWE) Parallel
Corpora [14.105783620789667]
マルチワード表現(MWEs)は自然言語処理(NLP)の研究においてホットな話題である
バイリンガルまたはマルチリンガルMWEコーパスの可用性は非常に限られている。
フィルタリング後,ドイツ語と中国語にそれぞれ3,159,226対と143,042対のバイリンガルMWEペアを提示した。
論文 参考訳(メタデータ) (2020-05-21T11:46:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。