論文の概要: Document-aligned Japanese-English Conversation Parallel Corpus
- arxiv url: http://arxiv.org/abs/2012.06143v1
- Date: Fri, 11 Dec 2020 06:03:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 03:04:24.566827
- Title: Document-aligned Japanese-English Conversation Parallel Corpus
- Title(参考訳): 和英会話パラレルコーパスの文書化
- Authors: Mat\=iss Rikters, Ryokan Ri, Tong Li, Toshiaki Nakazawa
- Abstract要約: 文レベル (SL) 機械翻訳 (MT) は、多くの高リソース言語で許容できる品質に達しているが、文書レベル (DL) MT には達していない。
バランスの取れた高品質のビジネス会話データを含む文書整合日英会話コーパスを提示し、チューニングとテストを行います。
私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。
- 参考スコア(独自算出の注目度): 4.793904440030568
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence-level (SL) machine translation (MT) has reached acceptable quality
for many high-resourced languages, but not document-level (DL) MT, which is
difficult to 1) train with little amount of DL data; and 2) evaluate, as the
main methods and data sets focus on SL evaluation. To address the first issue,
we present a document-aligned Japanese-English conversation corpus, including
balanced, high-quality business conversation data for tuning and testing. As
for the second issue, we manually identify the main areas where SL MT fails to
produce adequate translations in lack of context. We then create an evaluation
set where these phenomena are annotated to alleviate automatic evaluation of DL
systems. We train MT models using our corpus to demonstrate how using context
leads to improvements.
- Abstract(参考訳): 文レベル(sl)機械翻訳(mt)は多くの高ソース言語で受け入れられる品質に達しているが、ドキュメントレベル(dl)mtは、1)少量のdlデータでトレーニングすること、2)主要な手法とデータセットとしてsl評価に焦点を当てている。
最初の課題に対処するために、調整とテストのためのバランスのとれた高品質なビジネス会話データを含む和英会話コーパスを提案する。
第2の課題は、SL MTが文脈の欠如により適切な翻訳を作成できない主な領域を手動で特定することである。
次に,これらの現象をアノテートしてDLシステムの自動評価を緩和する評価セットを作成する。
私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。
関連論文リスト
- Improving Long Context Document-Level Machine Translation [51.359400776242786]
翻訳の一貫性と凝集性を改善するために、ニューラルネットワーク翻訳(NMT)のための文書レベルのコンテキストが不可欠である。
文書レベルのNMTに関する多くの著作が出版されているが、ほとんどの作品では局所的な文脈に制限されている。
本稿では、メモリ消費を同時に低減しつつ、シーケンスの最も関連性の高い部分に注意を集中させる制約付注意変種を提案する。
論文 参考訳(メタデータ) (2023-06-08T13:28:48Z) - On Search Strategies for Document-Level Neural Machine Translation [51.359400776242786]
文書レベルのニューラルネットワーク変換(NMT)モデルは、ドキュメント全体にわたってより一貫性のある出力を生成する。
そこで本研究では,デコードにおける文脈認識翻訳モデルをどのように活用するか,という質問に答えることを目的としている。
論文 参考訳(メタデータ) (2023-06-08T11:30:43Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - A Bilingual Parallel Corpus with Discourse Annotations [82.07304301996562]
本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
論文 参考訳(メタデータ) (2022-10-26T12:33:53Z) - When Does Translation Require Context? A Data-driven, Multilingual
Exploration [71.43817945875433]
談話の適切な処理は機械翻訳(MT)の品質に大きく貢献する
文脈認識型MTにおける最近の研究は、評価中に少量の談話現象を標的にしようとしている。
談話現象のモデル性能を識別・評価するタグの集合である,多言語談話認識ベンチマークを開発した。
論文 参考訳(メタデータ) (2021-09-15T17:29:30Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Auto Correcting in the Process of Translation -- Multi-task Learning
Improves Dialogue Machine Translation [31.247920419523066]
対話コーパスを深く分析し,対話翻訳における3つの主要な課題を要約する。
本稿では,欠落と型を識別し,文脈を利用して対話発話を翻訳する共同学習手法を提案する。
提案手法は,ベースライン上での3.2BLEUの翻訳品質を向上することを示す。
論文 参考訳(メタデータ) (2021-03-30T09:12:47Z) - Majority Voting with Bidirectional Pre-translation For Bitext Retrieval [2.580271290008534]
一般的なアプローチは、2つの言語でペアの文書からいわゆる"pseudo-parallel"文をマイニングすることであった。
本稿では,現状の手法による問題を概説し,それらの問題に対する計算経済的解決策を提案し,新しい手法による成功を実証する。
実験に使用されるコードとデータは公開されています。
論文 参考訳(メタデータ) (2021-03-10T22:24:01Z) - Towards Personalised and Document-level Machine Translation of Dialogue [0.0]
本論文では,5言語でテレビ字幕から抽出した対話領域について,PersNMTとDocNMTに焦点を当てた。
1)NMTシステムに直接テキスト情報を導入すること,(2)凝集装置の機械翻訳を改善すること,(3)PersNMTとDocNMTの信頼性を評価すること,の3つの課題に対処する。
論文 参考訳(メタデータ) (2021-02-11T09:18:20Z) - Can Your Context-Aware MT System Pass the DiP Benchmark Tests? :
Evaluation Benchmarks for Discourse Phenomena in Machine Translation [7.993547048820065]
本稿では,4つの主要な談話現象の追跡と改善を目的としたMTベンチマークデータセットについて紹介する。
驚くべきことに、既存の文脈認識モデルでは、言語や現象間の会話関連翻訳が一貫して改善されない。
論文 参考訳(メタデータ) (2020-04-30T07:15:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。