論文の概要: Controlling Extra-Textual Attributes about Dialogue Participants: A Case
Study of English-to-Polish Neural Machine Translation
- arxiv url: http://arxiv.org/abs/2205.04747v1
- Date: Tue, 10 May 2022 08:45:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:18:32.275350
- Title: Controlling Extra-Textual Attributes about Dialogue Participants: A Case
Study of English-to-Polish Neural Machine Translation
- Title(参考訳): 対話参加者の文外属性の制御--英語からポーランド語への翻訳を事例として
- Authors: Sebastian T. Vincent, Lo\"ic Barrault, Carolina Scarton
- Abstract要約: 機械翻訳モデルは、英語からポーランド語に翻訳する際に、テキストコンテキストの特定の解釈を選択する必要がある。
本稿では,翻訳における属性の制御に幅広いアプローチを採用するケーススタディを提案する。
最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。
- 参考スコア(独自算出の注目度): 4.348327991071386
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Unlike English, morphologically rich languages can reveal characteristics of
speakers or their conversational partners, such as gender and number, via
pronouns, morphological endings of words and syntax. When translating from
English to such languages, a machine translation model needs to opt for a
certain interpretation of textual context, which may lead to serious
translation errors if extra-textual information is unavailable. We investigate
this challenge in the English-to-Polish language direction. We focus on the
underresearched problem of utilising external metadata in automatic translation
of TV dialogue, proposing a case study where a wide range of approaches for
controlling attributes in translation is employed in a multi-attribute
scenario. The best model achieves an improvement of +5.81 chrF++/+6.03 BLEU,
with other models achieving competitive performance. We additionally contribute
a novel attribute-annotated dataset of Polish TV dialogue and a morphological
analysis script used to evaluate attribute control in models.
- Abstract(参考訳): 英語と異なり、形態学的にリッチな言語は話者やその会話相手(性別や数など)の特徴を代名詞、単語の形態的終末語、構文を通して明らかにすることができる。
英語からそのような言語に翻訳する場合、機械翻訳モデルは、テキストコンテキストの特定の解釈を選択する必要がある。
我々は、この課題を英語からポーランド語への方向で検討する。
本稿では,テレビ対話の自動翻訳における外部メタデータの利用という未調査の問題に焦点をあて,多属性シナリオにおいて,翻訳の属性を制御するための幅広いアプローチを採用するケーススタディを提案する。
最高のモデルでは+5.81 chrF++/+6.03 BLEUが向上し、他のモデルでは競争性能が向上した。
さらに,ポーランド語テレビ対話の属性注釈付きデータセットと,モデルにおける属性制御を評価するための形態素解析スクリプトも提供した。
関連論文リスト
- Modeling Coreference Relations in Visual Dialog [18.926582410644375]
ダイアログにおけるコア参照関係の発生は、視覚的質問応答よりも難しい課題となる。
教師なしの方法でダイアログにおけるコア参照を解消するモデルの能力を改善する2つのソフト制約を提案する。
論文 参考訳(メタデータ) (2022-03-06T15:22:24Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Controlled Evaluation of Grammatical Knowledge in Mandarin Chinese
Language Models [22.57309958548928]
構造的監督が言語モデルの文法的依存の学習能力を向上させるかどうかを検討する。
LSTM、リカレントニューラルネットワーク文法、トランスフォーマー言語モデル、および異なるサイズのデータセットに対する生成解析モデルをトレーニングする。
構造的監督がコンテンツ間のシナティクス状態の表現に役立ち、低データ設定における性能向上に役立つという示唆的な証拠が得られます。
論文 参考訳(メタデータ) (2021-09-22T22:11:30Z) - Towards Zero-shot Language Modeling [90.80124496312274]
人間の言語学習に誘導的に偏りを持つニューラルモデルを構築した。
類型的に多様な訓練言語のサンプルからこの分布を推測する。
我々は、保留言語に対する遠隔監視として、追加の言語固有の側情報を利用する。
論文 参考訳(メタデータ) (2021-08-06T23:49:18Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - ChrEnTranslate: Cherokee-English Machine Translation Demo with Quality
Estimation and Corrective Feedback [70.5469946314539]
ChrEnTranslateは、英語と絶滅危惧言語チェロキーとの翻訳のためのオンライン機械翻訳デモシステムである。
統計モデルとニューラルネットワークモデルの両方をサポートし、信頼性をユーザに通知するための品質評価を提供する。
論文 参考訳(メタデータ) (2021-07-30T17:58:54Z) - Modeling Bilingual Conversational Characteristics for Neural Chat
Translation [24.94474722693084]
上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2021-07-23T12:23:34Z) - AM2iCo: Evaluating Word Meaning in Context across Low-ResourceLanguages
with Adversarial Examples [51.048234591165155]
本稿では, AM2iCo, Adversarial and Multilingual Meaning in Contextを提案する。
言語間文脈における単語の意味の同一性を理解するために、最先端(SotA)表現モデルを忠実に評価することを目的としている。
その結果、現在のSotAプリトレーニングエンコーダは人間のパフォーマンスにかなり遅れていることが明らかとなった。
論文 参考訳(メタデータ) (2021-04-17T20:23:45Z) - Robustness Testing of Language Understanding in Dialog Systems [33.30143655553583]
自然言語理解モデルの頑健性に関して総合的な評価と分析を行う。
本稿では,実世界の対話システムにおける言語理解に関連する3つの重要な側面,すなわち言語多様性,音声特性,雑音摂動について紹介する。
対話システムにおける堅牢性問題をテストするための自然摂動を近似するモデル非依存型ツールキットLAUGを提案する。
論文 参考訳(メタデータ) (2020-12-30T18:18:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。