論文の概要: Auto Correcting in the Process of Translation -- Multi-task Learning
Improves Dialogue Machine Translation
- arxiv url: http://arxiv.org/abs/2103.16189v1
- Date: Tue, 30 Mar 2021 09:12:47 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 23:12:30.328053
- Title: Auto Correcting in the Process of Translation -- Multi-task Learning
Improves Dialogue Machine Translation
- Title(参考訳): 翻訳過程における自動修正 -- マルチタスク学習による対話機械翻訳の改善
- Authors: Tao Wang, Chengqi Zhao, Mingxuan Wang, Lei Li, Deyi Xiong
- Abstract要約: 対話コーパスを深く分析し,対話翻訳における3つの主要な課題を要約する。
本稿では,欠落と型を識別し,文脈を利用して対話発話を翻訳する共同学習手法を提案する。
提案手法は,ベースライン上での3.2BLEUの翻訳品質を向上することを示す。
- 参考スコア(独自算出の注目度): 31.247920419523066
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic translation of dialogue texts is a much needed demand in many real
life scenarios. However, the currently existing neural machine translation
delivers unsatisfying results. In this paper, we conduct a deep analysis of a
dialogue corpus and summarize three major issues on dialogue translation,
including pronoun dropping (\droppro), punctuation dropping (\droppun), and
typos (\typo). In response to these challenges, we propose a joint learning
method to identify omission and typo, and utilize context to translate dialogue
utterances. To properly evaluate the performance, we propose a manually
annotated dataset with 1,931 Chinese-English parallel utterances from 300
dialogues as a benchmark testbed for dialogue translation. Our experiments show
that the proposed method improves translation quality by 3.2 BLEU over the
baselines. It also elevates the recovery rate of omitted pronouns from 26.09%
to 47.16%. We will publish the code and dataset publicly at
https://github.com/rgwt123/DialogueMT.
- Abstract(参考訳): 対話文の自動翻訳は多くの実生活シナリオにおいて必要不可欠である。
しかし、既存のニューラルマシン翻訳は満足のいく結果をもたらす。
本稿では,対話コーパスを深く分析し,代名詞のドロップ(\droppro),句句のドロップ(\droppun),タイポ(\typo)の3つの主要な課題を要約する。
これらの課題に対応するために,欠落と型を識別し,文脈を利用して対話発話を翻訳する共同学習手法を提案する。
そこで本研究では,300の対話から1,931の中国語と英語の並列発話を用いた手動注釈付きデータセットを提案する。
提案手法は,ベースライン上での3.2BLEUの翻訳品質を向上させる。
また、省略代名詞の回収率は26.09%から47.16%に上昇する。
コードとデータセットはhttps://github.com/rgwt123/DialogueMTで公開します。
関連論文リスト
- Multi-turn Dialogue Comprehension from a Topic-aware Perspective [70.37126956655985]
本稿では,話題認識の観点から,マルチターン対話をモデル化することを提案する。
対話文のセグメント化アルゴリズムを用いて、対話文を教師なしの方法でトピック集中フラグメントに分割する。
また,トピックセグメントを処理要素として扱う新しいモデルとして,トピック認識デュアルアテンションマッチング(TADAM)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-09-18T11:03:55Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z) - HanoiT: Enhancing Context-aware Translation via Selective Context [95.93730812799798]
コンテキスト対応ニューラルネットワーク翻訳は、文書レベルのコンテキストを使用して翻訳品質を改善することを目的としている。
無関係または自明な単語は、いくつかのノイズをもたらし、モデルが現在の文と補助的な文脈の関係を学ぶのを邪魔する可能性がある。
そこで本稿では,階層的選択機構を備えたエンド・ツー・エンドのエンコーダ・デコーダモデルを提案する。
論文 参考訳(メタデータ) (2023-01-17T12:07:13Z) - Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。
本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文 参考訳(メタデータ) (2022-10-10T05:51:40Z) - Controllable Dialogue Simulation with In-Context Learning [39.04491297557292]
textscDialogicは、大規模言語モデルに基づく対話シミュレーション手法である。
本手法は,人間の関与を最小あるいはゼロに抑えながら,少数の対話データを迅速に拡張することができる。
我々のシミュレートされた対話は、ほぼ人間に近い流速とアノテーションの精度を持つ。
論文 参考訳(メタデータ) (2022-10-09T06:32:58Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Document-aligned Japanese-English Conversation Parallel Corpus [4.793904440030568]
文レベル (SL) 機械翻訳 (MT) は、多くの高リソース言語で許容できる品質に達しているが、文書レベル (DL) MT には達していない。
バランスの取れた高品質のビジネス会話データを含む文書整合日英会話コーパスを提示し、チューニングとテストを行います。
私たちは、コーパスを使用してMTモデルをトレーニングし、コンテキストの使用が改善につながることを示す。
論文 参考訳(メタデータ) (2020-12-11T06:03:33Z) - Rethinking Dialogue State Tracking with Reasoning [76.0991910623001]
本稿では, 対話状態の段階的追跡を, バックエンドデータの助けを借りて行うことを提案する。
実験の結果,MultiWOZ 2.1の連立信条精度は38.6%向上した。
論文 参考訳(メタデータ) (2020-05-27T02:05:33Z) - Diversifying Dialogue Generation with Non-Conversational Text [38.03510529185192]
非会話的テキストを活用することで対話生成を多様化する新しい視点を提案する。
我々は、フォーラムコメント、イディオム、本スニペットを含む複数の情報源から、大規模な非会話コーパスを収集する。
得られたモデルは、2つの会話データセット上でテストされ、コンテキストとの関連性を犠牲にすることなく、はるかに多様な応答を生成することが示されている。
論文 参考訳(メタデータ) (2020-05-09T02:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。