論文の概要: PerSHOP -- A Persian dataset for shopping dialogue systems modeling
- arxiv url: http://arxiv.org/abs/2401.00811v1
- Date: Mon, 1 Jan 2024 16:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 15:45:28.600448
- Title: PerSHOP -- A Persian dataset for shopping dialogue systems modeling
- Title(参考訳): pershop - ショッピング対話システムモデリングのためのペルシャデータセット
- Authors: Keyvan Mahmoudi, Heshaam Faili
- Abstract要約: 我々はクラウドソーシングを通じてペルシア語で対話のデータセットを開発した。
このデータセットには、15の異なるドメインで22k近い発話と1061の対話が含まれている。
自然言語理解タスクのベースラインモデルをいくつか提案した。
- 参考スコア(独自算出の注目度): 2.3025186469300434
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Nowadays, dialogue systems are used in many fields of industry and research.
There are successful instances of these systems, such as Apple Siri, Google
Assistant, and IBM Watson. Task-oriented dialogue system is a category of
these, that are used in specific tasks. They can perform tasks such as booking
plane tickets or making restaurant reservations. Shopping is one of the most
popular areas on these systems. The bot replaces the human salesperson and
interacts with the customers by speaking. To train the models behind the scenes
of these systems, annotated data is needed. In this paper, we developed a
dataset of dialogues in the Persian language through crowd-sourcing. We
annotated these dialogues to train a model. This dataset contains nearly 22k
utterances in 15 different domains and 1061 dialogues. This is the largest
Persian dataset in this field, which is provided freely so that future
researchers can use it. Also, we proposed some baseline models for natural
language understanding (NLU) tasks. These models perform two tasks for NLU:
intent classification and entity extraction. The F-1 score metric obtained for
intent classification is around 91% and for entity extraction is around 93%,
which can be a baseline for future research.
- Abstract(参考訳): 現在、対話システムは多くの産業や研究分野で使われている。
これらのシステムには、Apple Siri、Google Assistant、IBM Watsonなどの成功例がある。
タスク指向対話システムはこれらのカテゴリであり、特定のタスクで使用される。
飛行機のチケットの予約やレストランの予約などを行うことができる。
ショッピングはこれらのシステムでもっとも人気のある分野の1つである。
ボットは人間のセールスパーソンを置き換え、話すことで顧客と対話する。
これらのシステムの背景にあるモデルをトレーニングするには、注釈付きデータが必要です。
本稿では,クラウドソーシングによるペルシア語対話のデータセットを開発した。
モデルを訓練するためにこれらの対話に注釈を付けました。
このデータセットは、15の異なるドメインと1061の対話で22kの発話を含む。
これはこの分野で最大のペルシアのデータセットであり、将来の研究者が使用できるように自由に提供される。
また,自然言語理解(NLU)タスクのベースラインモデルも提案した。
これらのモデルはnluのインテント分類とエンティティ抽出の2つのタスクを実行する。
意図分類で得られたf-1スコアはおよそ91%で、エンティティ抽出では約93%であり、将来の研究のベースラインとなる。
関連論文リスト
- SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented
Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。
SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文 参考訳(メタデータ) (2023-05-22T13:47:51Z) - DialogZoo: Large-Scale Dialog-Oriented Task Learning [52.18193690394549]
我々は,多種多様な対話課題を解くための統合基盤モデルの構築を目指している。
この目的を達成するために、73の公開データセットから、まず大規模なラベル付き対話データセットを収集する。
論文 参考訳(メタデータ) (2022-05-25T11:17:16Z) - KETOD: Knowledge-Enriched Task-Oriented Dialogue [77.59814785157877]
対話システム研究における既存の研究は、主にタスク指向の対話とチャットを独立したドメインとして扱う。
本研究では,タスク指向対話と知識ベースチップチャットを一つのモデルに効果的に統合する方法について検討する。
論文 参考訳(メタデータ) (2022-05-11T16:01:03Z) - Investigating Effect of Dialogue History in Multilingual Task Oriented
Dialogue Systems [2.695466667982714]
2021年12月までに、世界で最も人気のあるスマートスピーカーの1つであるAlexaは、9つの異なる言語をサポートすることができる。
他の言語での仮想アシスタントのトレーニングは、特に低リソース言語では、しばしば困難である。
我々は多言語タスク指向対話システムのための効率的かつ効果的な学習ソリューションを考案する。
論文 参考訳(メタデータ) (2021-12-23T02:27:10Z) - Few-Shot Bot: Prompt-Based Learning for Dialogue Systems [58.27337673451943]
ごく少数の例を使って会話を学ぶことは、会話型AIにおける大きな課題である。
現在の最良の会話モデルは、良いチャットシャッター(例:BlenderBot)またはゴール指向システム(例:MinTL)である。
グラデーションベースの微調整を必要とせず、学習の唯一の源としていくつかの例を用いるプロンプトベースの数ショット学習を提案する。
論文 参考訳(メタデータ) (2021-10-15T14:36:45Z) - Recent Advances in Deep Learning-based Dialogue Systems [12.798560005546262]
我々は主に深層学習に基づく対話システムに注目している。
この調査は、対話システムおよび対話関連タスクの分野で現在最も包括的で最新のものです。
論文 参考訳(メタデータ) (2021-05-10T14:07:49Z) - TicketTalk: Toward human-level performance with end-to-end,
transaction-based dialog systems [10.659519248703273]
トランザクションベースの対話システムに対するデータ駆動型エンドツーエンドアプローチを提案する。
本システムは,音声応答品質と実感的グラウンドリング精度の観点から,ほぼ人間レベルで動作することを示す。
我々は23,789の注釈付き会話を含む映画チケットダイアログデータセットであるTicketTalkを紹介した。
論文 参考訳(メタデータ) (2020-12-23T02:43:37Z) - Language Models as Few-Shot Learner for Task-Oriented Dialogue Systems [74.8759568242933]
タスク指向対話システムは、自然言語理解(NLU)、対話状態追跡(DST)、対話ポリシー(DP)、自然言語生成(NLG)の4つの連結モジュールを使用する。
研究課題は、データ収集に関連する高コストから最小限のサンプルで各モジュールを学習することである。
我々は,NLU,DP,NLGタスクにおいて,言語モデルの素小ショット能力を評価する。
論文 参考訳(メタデータ) (2020-08-14T08:23:21Z) - A Large-Scale Chinese Short-Text Conversation Dataset [77.55813366932313]
大規模な中国語会話データセットLCCCについて,基本バージョン(680万対話),大バージョン(1120万対話)について述べる。
データセットの品質は、厳格なデータクリーニングパイプラインによって保証されます。
また,LCCC-baseとLCCC-largeで訓練された事前学習対話モデルもリリースした。
論文 参考訳(メタデータ) (2020-08-10T08:12:49Z) - The Gutenberg Dialogue Dataset [1.90365714903665]
現在公開されているオープンドメインの対話データセットは、品質とサイズの間のトレードオフを提供する。
英語で14.8Mの発話の高品質なデータセットを構築し、ドイツ語、オランダ語、スペイン語、ポルトガル語、イタリア語、ハンガリー語で小さなデータセットを構築します。
論文 参考訳(メタデータ) (2020-04-27T12:52:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。