論文の概要: WeTS: A Benchmark for Translation Suggestion
- arxiv url: http://arxiv.org/abs/2110.05151v1
- Date: Mon, 11 Oct 2021 10:52:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 17:40:22.237003
- Title: WeTS: A Benchmark for Translation Suggestion
- Title(参考訳): WeTS: 翻訳提案のためのベンチマーク
- Authors: Zhen Yang, Yingxue Zhang, Ernan Li, Fandong Meng and Jie Zhou
- Abstract要約: 我々はemphWeTSと呼ばれる翻訳提案(TS)のためのベンチマークデータセットを作成する。
また,TSの性能を大幅に向上できる合成コーパスを生成するための新しい手法を提案する。
我々のモデルは、ドイツ語、ドイツ語、中国語、英語、中国語の4つの翻訳方向について、ステートオフ・ザ・アート(SOTA)の結果を達成する。
- 参考スコア(独自算出の注目度): 32.10692757420455
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Translation Suggestion (TS), which provides alternatives for specific words
or phrases given the entire documents translated by machine translation (MT)
\cite{lee2021intellicat}, has been proven to play a significant role in post
editing (PE). However, there is still no publicly available data set to support
in-depth research for this problem, and no reproducible experimental results
can be followed by researchers in this community. To break this limitation, we
create a benchmark data set for TS, called \emph{WeTS}, which contains golden
corpus annotated by expert translators on four translation directions. Apart
from the human-annotated golden corpus, we also propose several novel methods
to generate synthetic corpus which can substantially improve the performance of
TS. With the corpus we construct, we introduce the Transformer-based model for
TS, and experimental results show that our model achieves State-Of-The-Art
(SOTA) results on all four translation directions, including English-to-German,
German-to-English, Chinese-to-English and English-to-Chinese. Codes and corpus
can be found at \url{https://github.com/ZhenYangIACAS/WeTS.git}.
- Abstract(参考訳): 機械翻訳(MT) \cite{lee2021intellicat} によって翻訳された文書全体に対する特定の単語やフレーズの代替を提供する翻訳提案(TS)は、ポスト編集(PE)において重要な役割を果たすことが証明されている。
しかし、この問題の詳細な研究を支援するためのデータセットがまだ公開されておらず、再現可能な実験結果もこのコミュニティの研究者に追従できない。
この制限を破るために、私たちは、専門家翻訳者が4つの翻訳方向で注釈付けした黄金のコーパスを含むTSのベンチマークデータセットである「emph{WeTS}」を作成します。
また,ヒトに注釈を付けたゴールデンコーパスとは別に,TSの性能を大幅に向上させる合成コーパスの生成方法も提案した。
提案するコーパスを用いてts用トランスフォーマーモデルを導入し,本モデルが英語とドイツ語,ドイツ語と英語,中国語と中国語の4つの翻訳方向すべてにおいて最先端(sota)結果を達成することを実験的に示した。
コードとコーパスは \url{https://github.com/ZhenYangIACAS/WeTS.git} で見ることができる。
関連論文リスト
- Contextual Refinement of Translations: Large Language Models for Sentence and Document-Level Post-Editing [12.843274390224853]
大規模言語モデル(LLM)は、様々な自然言語処理タスクでかなりの成功を収めている。
ニューラルネットワーク翻訳における最先端性能は,まだ達成できていない。
直接翻訳者ではなく,自動編集者 (APE) としてLLMを適用することを提案する。
論文 参考訳(メタデータ) (2023-10-23T12:22:15Z) - ParroT: Translating during Chat using Large Language Models tuned with
Human Translation and Feedback [90.20262941911027]
ParroTはチャット中の翻訳機能を強化し、規制するフレームワークである。
具体的には、ParroTは、翻訳データを命令フォロースタイルに書き換える。
本稿では,ParroTモデルを微調整するための3つの命令タイプを提案する。
論文 参考訳(メタデータ) (2023-04-05T13:12:00Z) - Rethink about the Word-level Quality Estimation for Machine Translation
from Human Judgement [57.72846454929923]
ベンチマークデータセットであるemphHJQEを作成し、専門家翻訳者が不適切な翻訳語を直接アノテートする。
本稿では,タグリファインメント戦略と木ベースのアノテーション戦略という2つのタグ補正戦略を提案し,TERベースの人工QEコーパスをemphHJQEに近づける。
その結果,提案したデータセットは人間の判断と一致しており,また,提案したタグ補正戦略の有効性も確認できた。
論文 参考訳(メタデータ) (2022-09-13T02:37:12Z) - GigaST: A 10,000-hour Pseudo Speech Translation Corpus [33.572303016012384]
GigaSTは、大規模な擬似音声翻訳(ST)コーパスである。
我々は、英語のASRコーパスであるGigaSpeechのテキストをドイツ語と中国語に翻訳することでコーパスを作成する。
トレーニングセットは強力な機械翻訳システムによって翻訳され、テストセットは人間によって翻訳される。
論文 参考訳(メタデータ) (2022-04-08T08:59:33Z) - BitextEdit: Automatic Bitext Editing for Improved Low-Resource Machine
Translation [53.55009917938002]
自動編集によりマイニングしたビットクストを改良することを提案する。
提案手法は,5つの低リソース言語ペアと10の翻訳方向に対して,最大8個のBLEUポイントでCCMatrixマイニングビットクストの品質を向上することを示す。
論文 参考訳(メタデータ) (2021-11-12T16:00:39Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Consecutive Decoding for Speech-to-text Translation [51.155661276936044]
COnSecutive Transcription and Translation (COSTT)は、音声からテキストへの翻訳に不可欠な手法である。
鍵となるアイデアは、ソースの書き起こしとターゲットの翻訳テキストを1つのデコーダで生成することである。
本手法は3つの主流データセットで検証する。
論文 参考訳(メタデータ) (2020-09-21T10:10:45Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。