論文の概要: SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization
- arxiv url: http://arxiv.org/abs/2212.10465v3
- Date: Mon, 23 Oct 2023 18:46:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 03:29:48.288773
- Title: SODA: Million-scale Dialogue Distillation with Social Commonsense
Contextualization
- Title(参考訳): SODA:ソーシャル・コモンセンス・コンテクスト化による数百万件のダイアログ蒸留
- Authors: Hyunwoo Kim, Jack Hessel, Liwei Jiang, Peter West, Ximing Lu, Youngjae
Yu, Pei Zhou, Ronan Le Bras, Malihe Alikhani, Gunhee Kim, Maarten Sap, Yejin
Choi
- Abstract要約: 初となる,100万規模の社会対話データセットであるSODAを提示する。
知識グラフから社会的コモンセンス知識を文脈化することにより、社会的相互作用の非常に幅広いスペクトルを蒸留することができる。
人間による評価は、SODAにおける会話は、以前の人間によるデータセットよりも一貫性があり、特異であり、そして(当然のことながら)自然であることを示している。
- 参考スコア(独自算出の注目度): 129.1927527781751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Data scarcity has been a long standing issue in the field of open-domain
social dialogue. To quench this thirst, we present SODA: the first publicly
available, million-scale high-quality social dialogue dataset. By
contextualizing social commonsense knowledge from a knowledge graph, we are
able to distill an exceptionally broad spectrum of social interactions from a
large language model. Human evaluation shows that conversations in SODA are
more consistent, specific, and (surprisingly) natural than those in prior
human-authored datasets.
Using SODA, we train COSMO: a generalizable conversation model that is
significantly more natural and consistent on unseen datasets than
best-performing conversation models (e.g., GODEL, BlenderBot-1, Koala, Vicuna).
Experiments reveal COSMO is sometimes even preferred to the original
human-written gold responses. Additionally, our results shed light on the
distinction between knowledge-enriched conversations and natural social
chitchats. We plan to make our data, model, and code public.
- Abstract(参考訳): データ不足は、オープンドメインの社会対話における長年の課題である。
この渇きを和らげるために、私たちはsoda: the first public available, million-scale high-quality social dialogue datasetをプレゼンします。
知識グラフからソーシャル・コモンセンスの知識を文脈化することで、大きな言語モデルから非常に広い範囲の社会的相互作用を抽出できる。
人間による評価は、SODAにおける会話は、以前の人間によるデータセットよりも一貫性があり、特異であり、そして(当然のことながら)自然であることを示している。
SODAを用いて、最高のパフォーマンスの会話モデル(GODEL、BlenderBot-1、Koala、Vicunaなど)よりも、目に見えないデータセットに対して、はるかに自然で一貫性のある一般化可能な会話モデルであるCOSMOを訓練する。
実験の結果、COSMOは時にオリジナルの人書きのゴールドレスポンスよりも好まれることが示された。
さらに,我々は知識豊かな会話と自然なソーシャル・チットチャットの区別を明らかにした。
データ、モデル、コードを公開する予定です。
関連論文リスト
- Topical-Chat: Towards Knowledge-Grounded Open-Domain Conversations [8.03111197961603]
人工知能(AI)の壮大な課題の1つは、人間との深いオープンドメインの会話ができるソーシャルボットを作ることである。
知識に基づく人間と人間の会話データセットであるTopical-Chatを紹介した。
また、Topical-Chat上で、最先端のエンコーダ・デコーダ対話モデルをいくつかトレーニングし、ベンチマークの自動化と人的評価を行う。
論文 参考訳(メタデータ) (2023-08-23T08:33:14Z) - Does Collaborative Human-LM Dialogue Generation Help Information
Extraction from Human Dialogues? [55.28340832822234]
実際のアプリケーションにおける人間の対話の問題解決は、既存のWizard-of-Ozコレクションよりもはるかに複雑である。
本稿では,リアルな対話を合成できる人間間対話生成フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-13T20:02:50Z) - SocialDial: A Benchmark for Socially-Aware Dialogue Systems [45.3266270265532]
中国社会文化を基盤とした初の社会認識対話コーパス「SocialDial」を提示する。
SocialDialは2つの部分から構成される:2人の話者間の1,563のマルチターン対話と、ChatGPTによって生成された4,870の合成会話である。
人間のコーパスには5つの社会的規範があり、合計で14のサブカテゴリがある。
論文 参考訳(メタデータ) (2023-04-24T11:55:22Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Knowledge-Grounded Conversational Data Augmentation with Generative
Conversational Networks [76.11480953550013]
生成会話ネットワークを用いて会話データを自動的に生成する。
我々は、Topical Chatデータセット上で、知識のない会話に対するアプローチを評価した。
論文 参考訳(メタデータ) (2022-07-22T22:37:14Z) - AFEC: A Knowledge Graph Capturing Social Intelligence in Casual
Conversations [7.390960543869484]
本稿では,日々のカジュアルな会話に基づいた知識グラフであるAFECを紹介する。
この知識を包括的で意味のあるものにするために、r/CasualConversation SubRedditから大規模なコーパスをキュレーションしました。
論文 参考訳(メタデータ) (2022-05-22T15:19:12Z) - Pchatbot: A Large-Scale Dataset for Personalized Chatbot [49.16746174238548]
本稿では,Weibo と Judicial のフォーラムから収集した2つのサブセットを含む大規模対話データセットである Pchatbot を紹介する。
生データセットを対話システムに適応させるため、匿名化などのプロセスを通じて生データセットを精巧に正規化する。
Pchatbotのスケールは、既存の中国のデータセットよりも大幅に大きく、データ駆動モデルの恩恵を受ける可能性がある。
論文 参考訳(メタデータ) (2020-09-28T12:49:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。