論文の概要: Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation
- arxiv url: http://arxiv.org/abs/2305.12480v1
- Date: Sun, 21 May 2023 15:07:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 20:15:28.362281
- Title: Is Translation Helpful? An Empirical Analysis of Cross-Lingual Transfer
in Low-Resource Dialog Generation
- Title(参考訳): 翻訳は役に立つか?
低リソースダイアログ生成における言語間移動の実証分析
- Authors: Lei Shen, Shuai Yu and Xiaoyu Shen
- Abstract要約: 複数の言語で高品質なチャットボットを開発するためには、言語間移動が重要である。
本研究は,機械翻訳(MT)の活用に有用かどうかを考察する。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示す実験結果が得られた。
- 参考スコア(独自算出の注目度): 21.973937517854935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-lingual transfer is important for developing high-quality chatbots in
multiple languages due to the strongly imbalanced distribution of language
resources. A typical approach is to leverage off-the-shelf machine translation
(MT) systems to utilize either the training corpus or developed models from
high-resource languages. In this work, we investigate whether it is helpful to
utilize MT at all in this task. To do so, we simulate a low-resource scenario
assuming access to limited Chinese dialog data in the movie domain and large
amounts of English dialog data from multiple domains. Experiments show that
leveraging English dialog corpora can indeed improve the naturalness, relevance
and cross-domain transferability in Chinese. However, directly using English
dialog corpora in its original form, surprisingly, is better than using its
translated version. As the topics and wording habits in daily conversations are
strongly culture-dependent, MT can reinforce the bias from high-resource
languages, yielding unnatural generations in the target language. Considering
the cost of translating large amounts of text and the strong effects of the
translation quality, we suggest future research should rather focus on
utilizing the original English data for cross-lingual transfer in dialog
generation. We perform extensive human evaluations and ablation studies. The
analysis results, together with the collected dataset, are presented to draw
attention towards this area and benefit future research.
- Abstract(参考訳): 複数の言語で高品質なチャットボットを開発するためには,言語資源のバランスの取れない分散が重要となる。
典型的なアプローチは、オフ・ザ・シェルフ機械翻訳(MT)システムを利用して、トレーニングコーパスまたは高リソース言語からのモデルを開発することである。
本研究では,この課題においてMTを全く活用することが有用かどうかを検討する。
そこで,映画領域の限定された中国語ダイアログデータと,複数のドメインからの大量の英語ダイアログデータへのアクセスを想定して,低リソースシナリオをシミュレートする。
英語ダイアログコーパスを活用すれば、中国語の自然性、関連性、ドメイン間の移動性が向上することを示した。
しかし、英語ダイアログコーパスを元の形式で直接使用するのは、驚くほど、翻訳版を使うよりも良い。
日常会話における話題や言葉の習慣は文化に依存しているため、MTは高リソース言語からのバイアスを強化し、ターゲット言語で不自然な世代を生み出す。
大量のテキストを翻訳するコストと翻訳品質の強い影響を考慮すると、対話生成における言語間変換に元の英語データを活用することに重点を置くべきであろう。
我々は広範囲の人体評価とアブレーション研究を行っている。
分析結果は収集したデータセットとともに、この領域に注意を向け、今後の研究に利益をもたらすために提示される。
関連論文リスト
- Investigating Neural Machine Translation for Low-Resource Languages: Using Bavarian as a Case Study [1.6819960041696331]
本稿では,ドイツ語とバイエルン語の自動翻訳システムを開発するために,最先端のニューラルマシン翻訳技術を再考する。
我々の実験では、バックトランスレーションとトランスファー学習を適用して、より多くのトレーニングデータを自動生成し、より高い翻訳性能を達成する。
ボニフェロニ補正による統計的意義は驚くほど高いベースラインシステムを示し、バックトランスレーションにより大幅な改善がもたらされた。
論文 参考訳(メタデータ) (2024-04-12T06:16:26Z) - Cross-Lingual Transfer Learning for Phrase Break Prediction with
Multilingual Language Model [13.730152819942445]
言語間変換学習は低リソース言語の性能向上に特に有効である。
このことは、リソース不足言語におけるTSフロントエンドの開発には、言語間転送が安価で効果的であることを示している。
論文 参考訳(メタデータ) (2023-06-05T04:10:04Z) - Revisiting Machine Translation for Cross-lingual Classification [91.43729067874503]
この分野のほとんどの研究は、機械翻訳コンポーネントではなく多言語モデルに焦点を当てている。
より強力なMTシステムを用いて、原文のトレーニングと機械翻訳テキストの推論のミスマッチを緩和することにより、翻訳テストは以前想定していたよりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-23T16:56:10Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Modeling Bilingual Conversational Characteristics for Neural Chat
Translation [24.94474722693084]
上記の特性をモデル化して会話テキストの翻訳品質を高めることを目的としている。
我々は、ベンチマークデータセットBConTrasT(英語-ドイツ語)と、BMELD(英語-中国語)という自己コンパイルバイリンガル対話コーパスに対するアプローチを評価した。
我々のアプローチは,強いベースラインよりも高いマージンで性能を向上し,BLEUとTERの観点から,最先端のコンテキスト対応NMTモデルを大幅に上回っている。
論文 参考訳(メタデータ) (2021-07-23T12:23:34Z) - Continual Mixed-Language Pre-Training for Extremely Low-Resource Neural
Machine Translation [53.22775597051498]
我々は,mbart を未熟な言語に効果的に適用するための,継続的な事前学習フレームワークを提案する。
その結果,mBARTベースラインの微調整性能を一貫して改善できることが示された。
私たちのアプローチは、両方の言語が元のmBARTの事前トレーニングで見られる翻訳ペアのパフォーマンスを高めます。
論文 参考訳(メタデータ) (2021-05-09T14:49:07Z) - An Empirical Study of Cross-Lingual Transferability in Generative
Dialogue State Tracker [33.2309643963072]
多言語事前学習セq2seqモデルを用いた言語間対話状態追跡システムの転送可能性について検討した。
また、我々のアプローチの低言語間移動可能性も調べ、調査と議論を行う。
論文 参考訳(メタデータ) (2021-01-27T12:45:55Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Multilingual Argument Mining: Datasets and Analysis [9.117984896907782]
非英語言語における引数マイニングタスクに対処するために,多言語BERTモデルを用いた移動学習の可能性を検討する。
このような手法は,議論の姿勢の分類や証拠の検出に適しているが,議論の質を評価するには適していないことを示す。
複数の言語で10k以上の引数を持つ人為的なデータセットと、英語データセットの機械翻訳を提供する。
論文 参考訳(メタデータ) (2020-10-13T14:49:10Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。