論文の概要: SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization
- arxiv url: http://arxiv.org/abs/2212.10465v1
- Date: Tue, 20 Dec 2022 17:38:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:47:16.591951
- Title: SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization
- Title(参考訳): SODA:ソーシャル・コモンセンス・コンテクスト化による数百万件のダイアログ蒸留
- Authors: Hyunwoo Kim, Jack Hessel, Liwei Jiang, Ximing Lu, Youngjae Yu, Pei
Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, Yejin Choi
- Abstract要約: SODAは、初めて公開され、数百万スケールの高品質な社会対話データセットである。
我々は、事前訓練された言語モデルから1.5Mの対話を抽出する。
人間の評価によると、SODAの対話は、従来の人間によるデータセットよりも一貫性があり、具体的であり、そして(当然のことながら)自然である。
- 参考スコア(独自算出の注目度): 110.38683129263012
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SODA: the first publicly available, million-scale high-quality
social dialogue dataset. Using SODA, we train COSMO: a generalizable
conversation agent outperforming previous best-performing agents on both in-
and out-of-domain datasets.
In contrast to most existing crowdsourced, small-scale dialogue corpora, we
distill 1.5M socially-grounded dialogues from a pre-trained language model
(InstructGPT; Ouyang et al., 2022). Dialogues are distilled by contextualizing
social commonsense knowledge from a knowledge graph (Atomic10x; West et al.,
2022). Human evaluation shows that dialogues in SODA are more consistent,
specific, and (surprisingly) natural than prior human-authored datasets - e.g.,
DailyDialog (Li et al., 2017), BlendedSkillTalk (Smith et al., 2020).
In addition, extensive evaluations show that COSMO is significantly more
natural and consistent on unseen datasets than best-performing dialogue models
- e.g., GODEL (Peng et al., 2022), BlenderBot (Roller et al., 2021), DialoGPT
(Zhang et al., 2020). Furthermore, it is sometimes even preferred to the
original human-written gold responses. We make our data, models, and code
public.
- Abstract(参考訳): 我々は,初めて公開され,100万規模の社会対話データセットであるSODAを提示する。
sodaを使用することで、cosmoをトレーニングする:ドメイン内データセットとドメイン外データセットの両方において、以前のベストパフォーマンスエージェントよりもパフォーマンスがよい、汎用的な会話エージェントです。
既存のクラウドソースの小規模対話コーパスとは対照的に,事前学習した言語モデル(instructgpt; ouyang et al., 2022)から150万のソーシャルグラウンド対話を抽出した。
ナレッジグラフ(atomic10x; west et al., 2022)から社会常識知識を文脈化することで対話を蒸留する。
人間による評価では、SODAの対話は従来の人間によるデータセット(例えば DailyDialog (Li et al., 2017), BlendedSkillTalk (Smith et al., 2020))よりも一貫性があり、具体的で、そして(当然ながら)自然なものである。
さらに、COSMOは最高のパフォーマンスの対話モデルであるGODEL(Peng et al., 2022)、BlenderBot(Roller et al., 2021)、DialoGPT(Zhang et al., 2020)よりもはるかに自然で一貫性のあるデータセットであることを示している。
また、本来の人書きの金の反応よりも好まれることもある。
データ、モデル、コードを公開しています。
関連論文リスト
- Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations [8.03111197961603]
人工知能(AI)の壮大な課題の1つは、人間との深いオープンドメインの会話ができるソーシャルボットを作ることである。
知識に基づく人間と人間の会話データセットであるTopical-Chatを紹介した。
また、Topical-Chat上で、最先端のエンコーダ・デコーダ対話モデルをいくつかトレーニングし、ベンチマークの自動化と人的評価を行う。
論文 参考訳(メタデータ) (2023-08-23T08:33:14Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - SocialDial: A Benchmark for Socially-Aware Dialogue Systems [45.3266270265532]
中国社会文化を基盤とした初の社会認識対話コーパス「SocialDial」を提示する。
SocialDialは2つの部分から構成される:2人の話者間の1,563のマルチターン対話と、ChatGPTによって生成された4,870の合成会話である。
人間のコーパスには5つの社会的規範があり、合計で14のサブカテゴリがある。
論文 参考訳(メタデータ) (2023-04-24T11:55:22Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - AFEC: A Knowledge Graph Capturing Social Intelligence in Casual
Conversations [7.390960543869484]
本稿では,日々のカジュアルな会話に基づいた知識グラフであるAFECを紹介する。
この知識を包括的で意味のあるものにするために、r/CasualConversation SubRedditから大規模なコーパスをキュレーションしました。
論文 参考訳(メタデータ) (2022-05-22T15:19:12Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。