論文の概要: Modeling Bilingual Conversational Characteristics for Neural Chat
Translation
- arxiv url: http://arxiv.org/abs/2107.11164v1
- Date: Fri, 23 Jul 2021 12:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-26 13:57:23.489609
- Title: Modeling Bilingual Conversational Characteristics for Neural Chat
Translation
- Title(参考訳): ニューラルチャット翻訳のためのバイリンガル会話特性のモデル化
- Authors: Yunlong Liang, Fandong Meng, Yufeng Chen, Jinan Xu and Jie Zhou
- Abstract要約: 上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
- 参考スコア(独自算出の注目度): 24.94474722693084
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural chat translation aims to translate bilingual conversational text,
which has a broad application in international exchanges and cooperation.
Despite the impressive performance of sentence-level and context-aware Neural
Machine Translation (NMT), there still remain challenges to translate bilingual
conversational text due to its inherent characteristics such as role
preference, dialogue coherence, and translation consistency. In this paper, we
aim to promote the translation quality of conversational text by modeling the
above properties. Specifically, we design three latent variational modules to
learn the distributions of bilingual conversational characteristics. Through
sampling from these learned distributions, the latent variables, tailored for
role preference, dialogue coherence, and translation consistency, are
incorporated into the NMT model for better translation. We evaluate our
approach on the benchmark dataset BConTrasT (English-German) and a
self-collected bilingual dialogue corpus, named BMELD (English-Chinese).
Extensive experiments show that our approach notably boosts the performance
over strong baselines by a large margin and significantly surpasses some
state-of-the-art context-aware NMT models in terms of BLEU and TER.
Additionally, we make the BMELD dataset publicly available for the research
community.
- Abstract(参考訳): ニューラルチャット翻訳は、国際交流や協力に広く応用されているバイリンガル会話テキストの翻訳を目的としている。
文レベルおよび文脈対応ニューラルマシン翻訳(NMT)の顕著な性能にもかかわらず、役割選好、対話コヒーレンス、翻訳一貫性といった固有の特徴から、バイリンガルな会話文の翻訳には依然として課題がある。
本稿では,上記の特性をモデル化し,会話テキストの翻訳品質を高めることを目的とする。
具体的には、3つの潜時変分モジュールを設計し、バイリンガルな会話特性の分布を学習する。
これらの学習分布から抽出することにより、役割選好に適した潜伏変数、対話コヒーレンス、翻訳一貫性をNMTモデルに組み込んで翻訳を改善する。
ベンチマークデータセットbcontrast(英語-ドイツ語)と自己収集したバイリンガル対話コーパスbmeld(英語-中国語)のアプローチを評価した。
広汎な実験により,我々の手法は強いベースラインよりも大きなマージンで性能を向上し,BLEU と TER の点で最先端の文脈認識型 NMT モデルを大幅に上回っていることがわかった。
さらに、bmeldデータセットを研究コミュニティ向けに公開しています。
関連論文リスト
- Context-aware Neural Machine Translation for English-Japanese Business
Scene Dialogues [14.043741721036543]
本稿では,日英ビジネス対話翻訳における現在のニューラル・マシン・トランスフォーメーション(NMT)モデルの性能向上について検討する。
本稿では,話者のターンやシーンタイプなどの外部情報を符号化する新しいコンテキストトークンを提案する。
我々は,先行文と外部文脈(CXMIは文脈サイズを増大させる)の両方をモデルに利用し,敬語翻訳のより焦点を絞った分析を行う。
論文 参考訳(メタデータ) (2023-11-20T18:06:03Z) - MTCue: Learning Zero-Shot Control of Extra-Textual Attributes by
Leveraging Unstructured Context in Neural Machine Translation [3.703767478524629]
これは、すべてのコンテキスト(離散変数を含む)をテキストとして解釈する新しいニューラルネットワーク翻訳(NMT)フレームワークである。
MTCueはコンテキストの抽象的な表現を学び、異なるデータ設定間で転送可能性を実現する。
MTCueは英語のテキストの翻訳において「タグ付け」ベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2023-05-25T10:06:08Z) - Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation [21.973937517854935]
複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
論文 参考訳(メタデータ) (2023-05-21T15:07:04Z) - Discourse Centric Evaluation of Machine Translation with a Densely
Annotated Parallel Corpus [82.07304301996562]
本稿では,江らが導入した大規模並列コーパスBWBに基づいて,リッチな談話アノテーションを用いた新しいデータセットを提案する。
ソース言語とターゲット言語の談話構造と類似点と相違点について検討する。
我々はMT出力が人間の翻訳と基本的に異なることを発見した。
論文 参考訳(メタデータ) (2023-05-18T17:36:41Z) - A Multi-task Multi-stage Transitional Training Framework for Neural Chat
Translation [84.59697583372888]
ニューラルチャット翻訳(NCT)は、異なる言語の話者間の言語間チャットを翻訳することを目的としている。
既存の文脈対応NMTモデルは、注釈付きバイリンガル対話のリソースが限られているため、満足な性能を達成できない。
NCTモデルをバイリンガルチャット翻訳データセットと追加の単言語対話を用いて訓練するマルチタスク・マルチステージ・トランザクショナル(MMT)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-01-27T14:41:16Z) - Controlling Extra-Textual Attributes about Dialogue Participants: A Case
Study of English-to-Polish Neural Machine Translation [4.348327991071386]
機械翻訳モデルは、英語からポーランド語に翻訳する際に、テキストコンテキストの特定の解釈を選択する必要がある。
本稿では,翻訳における属性の制御に幅広いアプローチを採用するケーススタディを提案する。
最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。
論文 参考訳(メタデータ) (2022-05-10T08:45:39Z) - Scheduled Multi-task Learning for Neural Chat Translation [66.81525961469494]
ニューラルチャット翻訳(NCT)のためのマルチタスク学習フレームワークを提案する。
具体的には、大規模なドメイン内チャット翻訳データをトレーニングに組み込むための3段階のトレーニングフレームワークを考案する。
提案手法の有効性と優越性を検証するために, 4言語方向の広範囲な実験を行った。
論文 参考訳(メタデータ) (2022-05-08T02:57:28Z) - Bridging the Data Gap between Training and Inference for Unsupervised
Neural Machine Translation [49.916963624249355]
UNMTモデルは、翻訳されたソースと推論中の自然言語で擬似並列データに基づいて訓練される。
トレーニングと推論のソース差はUNMTモデルの翻訳性能を妨げている。
本稿では、擬似並列データ自然言語を同時に用いたオンライン自己学習手法を提案する。
論文 参考訳(メタデータ) (2022-03-16T04:50:27Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Towards Making the Most of Dialogue Characteristics for Neural Chat
Translation [39.995680617671184]
NCTモデルへの対話特性のモデリングによるチャット翻訳の促進を提案する。
これらすべてのタスクのトレーニング目標を通じて,NCTモデルを最適化する。
4つの言語方向に関する総合的な実験により,提案手法の有効性と優位性を検証した。
論文 参考訳(メタデータ) (2021-09-02T02:04:00Z) - Learning Contextualized Sentence Representations for Document-Level
Neural Machine Translation [59.191079800436114]
文書レベルの機械翻訳は、文間の依存関係をソース文の翻訳に組み込む。
本稿では,ニューラルマシン翻訳(NMT)を訓練し,文のターゲット翻訳と周辺文の双方を予測することによって,文間の依存関係をモデル化するフレームワークを提案する。
論文 参考訳(メタデータ) (2020-03-30T03:38:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。