論文の概要: X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and
Few-shot Agents
- arxiv url: http://arxiv.org/abs/2306.17674v1
- Date: Fri, 30 Jun 2023 14:03:30 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 12:04:56.956573
- Title: X-RiSAWOZ: High-Quality End-to-End Multilingual Dialogue Datasets and
Few-shot Agents
- Title(参考訳): X-RiSAWOZ:多言語対話データセットとFew-shot Agent
- Authors: Mehrad Moradshahi, Tianhao Shen, Kalika Bali, Monojit Choudhury,
Ga\"el de Chalendar, Anmol Goel, Sungkyun Kim, Prashant Kodali, Ponnurangam
Kumaraguru, Nasredine Semmar, Sina J. Semnani, Jiwon Seo, Vivek Seshadri,
Manish Shrivastava, Michael Sun, Aditya Yadavalli, Chaobin You, Deyi Xiong
and Monica S. Lam
- Abstract要約: 我々は、中国語のRiSAWOZを4言語に翻訳することで、X-RiSAWOZという新しい多言語ベンチマークを作成する。
X-RiSAWOZは、言語毎に18,000以上の人間認証された対話発話を持つ。
翻訳後,新たな言語データセットの編集を高速化するツールセットを開発した。
- 参考スコア(独自算出の注目度): 43.446606562545085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Task-oriented dialogue research has mainly focused on a few popular languages
like English and Chinese, due to the high dataset creation cost for a new
language. To reduce the cost, we apply manual editing to automatically
translated data. We create a new multilingual benchmark, X-RiSAWOZ, by
translating the Chinese RiSAWOZ to 4 languages: English, French, Hindi, Korean;
and a code-mixed English-Hindi language. X-RiSAWOZ has more than 18,000
human-verified dialogue utterances for each language, and unlike most
multilingual prior work, is an end-to-end dataset for building
fully-functioning agents.
The many difficulties we encountered in creating X-RiSAWOZ led us to develop
a toolset to accelerate the post-editing of a new language dataset after
translation. This toolset improves machine translation with a hybrid entity
alignment technique that combines neural with dictionary-based methods, along
with many automated and semi-automated validation checks.
We establish strong baselines for X-RiSAWOZ by training dialogue agents in
the zero- and few-shot settings where limited gold data is available in the
target language. Our results suggest that our translation and post-editing
methodology and toolset can be used to create new high-quality multilingual
dialogue agents cost-effectively. Our dataset, code, and toolkit are released
open-source.
- Abstract(参考訳): タスク指向の対話研究は主に、新しい言語のためのデータセット作成コストが高いため、英語や中国語のようないくつかのポピュラーな言語に焦点を当てている。
コストを削減するため、手動編集を自動翻訳データに適用する。
我々は、中国語のRiSAWOZを4つの言語(英語、フランス語、ヒンディー語、韓国語)に翻訳し、X-RiSAWOZという新しい多言語ベンチマークを作成する。
X-RiSAWOZは、言語毎に18,000以上の人間認証された対話発話を持ち、多くの多言語以前の作業とは異なり、完全に機能するエージェントを構築するためのエンドツーエンドデータセットである。
X-RiSAWOZの作成に遭遇した多くの困難が、翻訳後の新しい言語データセットの編集を高速化するツールセットの開発に繋がった。
このツールセットは、ニューラルネットワークと辞書ベースのメソッドを組み合わせたハイブリッドエンティティアライメント技術と、多数の自動および半自動バリデーションチェックによって、機械翻訳を改善する。
X-RiSAWOZでは,ターゲット言語で限られた金のデータが利用できるゼロ・数ショット設定で対話エージェントを訓練することで,強力なベースラインを確立する。
この結果から,我々の翻訳・後編集手法やツールセットを用いて,高品質な多言語対話エージェントを低コストで作成できることが示唆された。
私たちのデータセット、コード、ツールキットはオープンソースでリリースされています。
関連論文リスト
- Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Cross-Lingual Dialogue Dataset Creation via Outline-Based Generation [70.81596088969378]
言語間アウトラインに基づく対話データセット(COD)は、自然言語の理解を可能にする。
CODは、4つの異なる言語で対話状態の追跡とエンドツーエンドの対話モデリングと評価を可能にする。
論文 参考訳(メタデータ) (2022-01-31T18:11:21Z) - Contextual Semantic Parsing for Multilingual Task-Oriented Dialogues [7.8378818005171125]
1つの言語で大規模な対話データセットをセットすると、機械翻訳を用いて他の言語に対して効果的な意味を自動生成できる。
本稿では、スロット値の忠実な翻訳を保証するために、アライメント付き対話データセットの自動翻訳を提案する。
簡潔な表現が翻訳誤りの複合効果を減少させることを示す。
論文 参考訳(メタデータ) (2021-11-04T01:08:14Z) - GlobalWoZ: Globalizing MultiWoZ to Develop Multilingual Task-Oriented
Dialogue Systems [66.92182084456809]
本稿では,英語のToDデータセットから大規模多言語ToDデータセットであるGlobalWoZを生成する新しいデータキュレーション手法を提案する。
本手法は,対話テンプレートの翻訳と,対象国におけるローカルエンティティの充填に基づく。
我々はデータセットと強力なベースラインのセットを公開し、実際のユースケースにおける多言語ToDシステムの学習を奨励します。
論文 参考訳(メタデータ) (2021-10-14T19:33:04Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - Multilingual Neural Semantic Parsing for Low-Resourced Languages [1.6244541005112747]
英語,イタリア語,日本語の新しい多言語意味解析データセットを提案する。
本研究では,事前学習したエンコーダを用いた多言語学習がTOPデータセットのベースラインを大幅に上回ることを示す。
英語データのみに基づいて訓練されたセマンティクスは、イタリア語の文に対して44.9%の精度でゼロショットのパフォーマンスを達成する。
論文 参考訳(メタデータ) (2021-06-07T09:53:02Z) - The Tatoeba Translation Challenge -- Realistic Data Sets for Low
Resource and Multilingual MT [0.0]
本稿では,何千もの言語ペアに対するトレーニングとテストデータを提供する機械翻訳のための新しいベンチマークの開発について述べる。
主な目標は、世界言語をより広範囲にカバーしたオープン翻訳ツールとモデルの開発をトリガーすることである。
論文 参考訳(メタデータ) (2020-10-13T13:12:21Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - A High-Quality Multilingual Dataset for Structured Documentation
Translation [101.41835967142521]
本稿では,文書領域を対象とした高品質な多言語データセットを提案する。
エンタープライズソフトウェアプラットフォームのオンラインドキュメントからXML構造化の並列テキストセグメントを収集します。
論文 参考訳(メタデータ) (2020-06-24T02:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。