論文の概要: A Bilingual Parallel Corpus with Discourse Annotations
- arxiv url: http://arxiv.org/abs/2210.14667v1
- Date: Wed, 26 Oct 2022 12:33:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-10-27 14:31:34.259510
- Title: A Bilingual Parallel Corpus with Discourse Annotations
- Title(参考訳): 談話注釈付きバイリンガル並列コーパス
- Authors: Yuchen Eleanor Jiang, Tianyu Liu, Shuming Ma, Dongdong Zhang, Mrinmaya
Sachan, Ryan Cotterell
- Abstract要約: 本稿では,Jiang et al. (2022)で最初に導入された大きな並列コーパスであるBWBと,注釈付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
- 参考スコア(独自算出の注目度): 82.07304301996562
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine translation (MT) has almost achieved human parity at sentence-level
translation. In response, the MT community has, in part, shifted its focus to
document-level translation. However, the development of document-level MT
systems is hampered by the lack of parallel document corpora. This paper
describes BWB, a large parallel corpus first introduced in Jiang et al. (2022),
along with an annotated test set. The BWB corpus consists of Chinese novels
translated by experts into English, and the annotated test set is designed to
probe the ability of machine translation systems to model various discourse
phenomena. Our resource is freely available, and we hope it will serve as a
guide and inspiration for more work in document-level machine translation.
- Abstract(参考訳): 機械翻訳(MT)は、文レベルの翻訳において人間のパリティをほぼ達成している。
それに応えて、mtコミュニティは部分的にドキュメントレベルの翻訳に焦点を移した。
しかし、文書レベルのMTシステムの開発は、並列文書コーパスの欠如によって妨げられている。
本稿では,jiang et al. (2022) で初めて導入された大規模並列コーパスであるbwbとアノテーション付きテストセットについて述べる。
BWBコーパスは、専門家によって英語に翻訳された中国の小説で構成されており、注釈付きテストセットは、様々な談話現象をモデル化する機械翻訳システムの能力を調査するために設計されている。
私たちのリソースは無償で利用可能であり、ドキュメントレベルの機械翻訳のガイドとインスピレーションになることを期待しています。
関連論文リスト
- Two Intermediate Translations Are Better Than One: Fine-tuning LLMs for Document-level Translation Refinement [19.513243503109035]
大規模言語モデル(LLM)は自己精製によって翻訳品質を向上させることができる。
文章レベルから文書レベルへの翻訳を改良することで、このアイデアを基礎にしています。
文から文への変換(Sent2Sent)とDoc2Docの翻訳は翻訳プロセスの異なる側面に対処するので、翻訳の洗練のための微調整 LLM を提案する。
論文 参考訳(メタデータ) (2025-04-08T02:08:07Z) - Bilingual Corpus Mining and Multistage Fine-Tuning for Improving Machine
Translation of Lecture Transcripts [50.00305136008848]
本研究では,並列コーパスマイニングのためのフレームワークを提案し,Coursera の公開講義から並列コーパスを迅速かつ効果的にマイニングする方法を提案する。
日英両国の講義翻訳において,約5万行の並列コーパスを抽出し,開発・テストセットを作成した。
また,コーパスの収集とクリーニング,並列文のマイニング,マイニングデータのクリーニング,高品質な評価スプリットの作成に関するガイドラインも提案した。
論文 参考訳(メタデータ) (2023-11-07T03:50:25Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - Document-aligned Japanese-English Conversation Parallel Corpus [4.793904440030568]
文レベル (SL) 機械翻訳 (MT) は、多くの高リソース言語で許容できる品質に達しているが、文書レベル (DL) MT には達していない。
バランスの取れた高品質のビジネス会話データを含む文書整合日英会話コーパスを提示し、チューニングとテストを行います。
私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。
論文 参考訳(メタデータ) (2020-12-11T06:03:33Z) - Diving Deep into Context-Aware Neural Machine Translation [36.17847243492193]
本稿では,4つの領域における文書レベルのNMTモデルの性能を解析する。
ドキュメントレベルのNMTに最適なアプローチはひとつもありません。
論文 参考訳(メタデータ) (2020-10-19T13:23:12Z) - Unsupervised Bitext Mining and Translation via Self-trained Contextual
Embeddings [51.47607125262885]
不整合テキストから機械翻訳(MT)のための擬似並列コーパスを作成するための教師なし手法について述べる。
我々は多言語BERTを用いて、最寄りの検索のためのソースとターゲット文の埋め込みを作成し、自己学習によりモデルを適応する。
BUCC 2017 bitextマイニングタスクで並列文ペアを抽出し,F1スコアの最大24.5ポイント増加(絶対)を従来の教師なし手法と比較して観察することで,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2020-10-15T14:04:03Z) - SJTU-NICT's Supervised and Unsupervised Neural Machine Translation
Systems for the WMT20 News Translation Task [111.91077204077817]
我々は英語・中国語・英語・ポーランド語・ドイツ語・アッパー・ソルビアンという3つの言語対の4つの翻訳指導に参加した。
言語ペアの異なる条件に基づいて、我々は多様なニューラルネットワーク翻訳(NMT)技術の実験を行った。
私たちの提出書では、主要なシステムは英語、中国語、ポーランド語、英語、ドイツ語から上セルビア語への翻訳の道順で第一位を獲得しました。
論文 参考訳(メタデータ) (2020-10-11T00:40:05Z) - Designing the Business Conversation Corpus [20.491255702901288]
我々は,新たに構築された日英ビジネス会話並列コーパスを導入することで,会話テキストの機械翻訳品質を向上させることを目的とする。
コーパスの詳細な解析と自動翻訳の難題について述べる。
また、機械翻訳訓練シナリオにコーパスを追加して、結果のシステムの利用によるメリットを示す実験を行った。
論文 参考訳(メタデータ) (2020-08-05T05:19:44Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。