論文の概要: DuRecDial 2.0: A Bilingual Parallel Corpus for Conversational
Recommendation
- arxiv url: http://arxiv.org/abs/2109.08877v1
- Date: Sat, 18 Sep 2021 08:23:21 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:56:28.650173
- Title: DuRecDial 2.0: A Bilingual Parallel Corpus for Conversational
Recommendation
- Title(参考訳): DuRecDial 2.0:会話勧告のためのバイリンガル並列コーパス
- Authors: Zeming Liu, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che
- Abstract要約: 本稿では,バイリンガル・パラレル・ヒューマン・ヒューマン・レコメンデーション・ダイアログ・データセット(DuRecDial 2.0)を提案する。
英語と中国語にまたがる8.2kのダイアログを収集します。
実験結果から、追加の英語データを使用することで、中国語の会話レコメンデーションのパフォーマンスが向上することが示された。
- 参考スコア(独自算出の注目度): 41.80521018134097
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we provide a bilingual parallel human-to-human recommendation
dialog dataset (DuRecDial 2.0) to enable researchers to explore a challenging
task of multilingual and cross-lingual conversational recommendation. The
difference between DuRecDial 2.0 and existing conversational recommendation
datasets is that the data item (Profile, Goal, Knowledge, Context, Response) in
DuRecDial 2.0 is annotated in two languages, both English and Chinese, while
other datasets are built with the setting of a single language. We collect 8.2k
dialogs aligned across English and Chinese languages (16.5k dialogs and 255k
utterances in total) that are annotated by crowdsourced workers with strict
quality control procedure. We then build monolingual, multilingual, and
cross-lingual conversational recommendation baselines on DuRecDial 2.0.
Experiment results show that the use of additional English data can bring
performance improvement for Chinese conversational recommendation, indicating
the benefits of DuRecDial 2.0. Finally, this dataset provides a challenging
testbed for future studies of monolingual, multilingual, and cross-lingual
conversational recommendation.
- Abstract(参考訳): 本稿では,多言語間および多言語間対話型リコメンデーションの課題を探索するために,多言語間人間間リコメンデーションダイアログデータセット(durecdial 2.0)を提案する。
DuRecDial 2.0と既存の会話レコメンデーションデータセットの違いは、DuRecDial 2.0のデータ項目(Profile, Goal, Knowledge, Context, Response)が英語と中国語の2言語で注釈付けされているのに対して、他のデータセットは単一の言語の設定で構築されていることだ。
8.2kのダイアログを英語と中国語(16.5kのダイアログと255kの発話)で収集し,厳格な品質管理手順でクラウドソース作業者が注釈を付ける。
次に、durecdial 2.0上で、単言語、多言語、多言語間会話推奨ベースラインを構築する。
実験結果から、追加の英語データを使用することで、中国の会話レコメンデーションのパフォーマンスが向上し、DuRecDial 2.0の利点が示された。
最後に、このデータセットは、モノリンガル、多言語、多言語間の会話レコメンデーションの今後の研究に挑戦的なテストベッドを提供する。
関連論文リスト
- Investigating Multilingual Instruction-Tuning: Do Polyglot Models Demand for Multilingual Instructions? [42.37657013017192]
単言語コーパスの代わりに並列で命令チューニングを行うことで、最大9.9%の言語間命令に従うことができることを示す。
また,多言語チャットシナリオにおけるヒューマンベースとGPT-4に基づく評価の整合性を理解するために,人間のアノテーション研究を行う。
論文 参考訳(メタデータ) (2024-02-21T11:07:07Z) - Large Language Models as Zero-Shot Conversational Recommenders [52.57230221644014]
ゼロショット設定における代表的大言語モデルを用いた会話推薦タスクに関する実証的研究を行った。
我々は、人気のあるディスカッションサイトをスクラップして、レコメンデーション関連の会話のデータセットを構築した。
我々は、微調整なしでも、大規模な言語モデルは既存の微調整された会話レコメンデーションモデルより優れていることを観察する。
論文 参考訳(メタデータ) (2023-08-19T15:29:45Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - Czech Dataset for Cross-lingual Subjectivity Classification [13.70633147306388]
そこで本研究では,映画レビューや説明文から10kの注釈付き主観的,客観的な文を手作業で作成する新しいチェコ語主観性データセットを提案する。
2つのアノテータはデータセットにコーエンのカッパ間アノテータ契約の0.83に達した。
新しいデータセットの単一言語ベースラインを設定するために、トレーニング済みのBERT風モデルを5つ微調整し、93.56%の精度を達成する。
論文 参考訳(メタデータ) (2022-04-29T07:31:46Z) - Cross-lingual Intermediate Fine-tuning improves Dialogue State Tracking [84.50302759362698]
我々は、事前訓練された多言語モデルの中間微調整により、伝達学習プロセスを強化する。
我々は、パラレルおよび会話型の映画字幕データセットを使用して、言語間中間タスクを設計する。
パラレルなMultiWoZデータセットとMultilingual WoZデータセットの精度を20%向上させる。
論文 参考訳(メタデータ) (2021-09-28T11:22:38Z) - XPersona: Evaluating Multilingual Personalized Chatbot [76.00426517401894]
我々はペルソナ・チャットの多言語拡張(XPersona)を提案する。
我々のデータセットには、多言語パーソナライズされたエージェントの構築と評価のための英語以外の6言語でのペルソナ会話が含まれています。
論文 参考訳(メタデータ) (2020-03-17T07:52:08Z) - CoVoST: A Diverse Multilingual Speech-To-Text Translation Corpus [57.641761472372814]
CoVoSTは11言語から英語への多言語による音声からテキストへの翻訳コーパスである。
11,000人以上の話者と60以上のアクセントで多様化した。
CoVoSTはCC0ライセンスでリリースされており、無料で利用できる。
論文 参考訳(メタデータ) (2020-02-04T14:35:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。