論文の概要: CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI
- arxiv url: http://arxiv.org/abs/2205.14727v1
- Date: Sun, 29 May 2022 17:45:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 14:16:17.262853
- Title: CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI
- Title(参考訳): cped: 会話型aiのための大規模中国語パーソナライズおよび感情対話データセット
- Authors: Yirong Chen, Weiquan Fan, Xiaofen Xing, Jianxin Pang, Minlie Huang,
Wenjing Han, Qianfeng Tie, Xiangmin Xu
- Abstract要約: 会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
- 参考スコア(独自算出の注目度): 48.67259855309959
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Human language expression is based on the subjective construal of the
situation instead of the objective truth conditions, which means that speakers'
personalities and emotions after cognitive processing have an important
influence on conversation. However, most existing datasets for conversational
AI ignore human personalities and emotions, or only consider part of them. It's
difficult for dialogue systems to understand speakers' personalities and
emotions although large-scale pre-training language models have been widely
used. In order to consider both personalities and emotions in the process of
conversation generation, we propose CPED, a large-scale Chinese personalized
and emotional dialogue dataset, which consists of multi-source knowledge
related to empathy and personal characteristic. These knowledge covers gender,
Big Five personality traits, 13 emotions, 19 dialogue acts and 10 scenes. CPED
contains more than 12K dialogues of 392 speakers from 40 TV shows. We release
the textual dataset with audio features and video features according to the
copyright claims, privacy issues, terms of service of video platforms. We
provide detailed description of the CPED construction process and introduce
three tasks for conversational AI, including personality recognition, emotion
recognition in conversations as well as personalized and emotional conversation
generation. Finally, we provide baseline systems for these tasks and consider
the function of speakers' personalities and emotions on conversation. Our
motivation is to propose a dataset to be widely adopted by the NLP community as
a new open benchmark for conversational AI research. The full dataset is
available at https://github.com/scutcyr/CPED.
- Abstract(参考訳): 人間の言語表現は、客観的な真理条件ではなく、状況の主観的な矛盾に基づいており、これは認知処理後の話者の個性と感情が会話に重要な影響を与えることを意味する。
しかし、会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
大規模な事前学習言語モデルが広く用いられてきたが,対話システムでは話者の個性や感情を理解することは困難である。
会話生成過程におけるパーソナリティと感情の両方を考察するために,共感と個人的特徴に関する多元的知識からなる,中国の大規模パーソナライズ・感情対話データセットであるcpedを提案する。
これらの知識は、性別、ビッグファイブの性格特性、13の感情、19の対話行為、10の場面をカバーする。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
著作権請求,プライバシー問題,ビデオプラットフォームのサービス規約に従って,音声機能とビデオ機能を備えたテキストデータセットをリリースする。
CPED構築プロセスの詳細な説明と、個人認識、会話における感情認識、パーソナライズされた感情的会話生成など、会話型AIのための3つのタスクを紹介する。
最後に、これらのタスクのベースラインシステムを提供し、会話における話者の個性と感情の機能を検討する。
我々のモチベーションは、対話型AI研究のための新しいオープンベンチマークとして、NLPコミュニティが広く採用するデータセットを提案することです。
完全なデータセットはhttps://github.com/scutcyr/cpedで入手できる。
関連論文リスト
- SemEval-2024 Task 3: Multimodal Emotion Cause Analysis in Conversations [53.60993109543582]
SemEval-2024 Task 3 "Multimodal Emotion Cause Analysis in Conversations" は、会話からすべての感情とそれに対応する原因を抽出することを目的としている。
異なるモダリティ設定の下では、2つのサブタスクから構成される: 会話におけるテキスト感情因果ペア抽出(TECPE)と会話におけるマルチモーダル感情因果ペア抽出(MECPE)である。
本稿では,タスク,データセット,評価設定について紹介し,トップチームのシステムを要約し,参加者の知見について議論する。
論文 参考訳(メタデータ) (2024-05-19T09:59:00Z) - Affective-NLI: Towards Accurate and Interpretable Personality Recognition in Conversation [30.820334868031537]
会話におけるパーソナリティ認識(PRC)は、テキスト対話コンテンツを通して話者の性格特性を識別することを目的としている。
本稿では,PRCの正確かつ解釈可能なAffective Natural Language Inference (Affective-NLI)を提案する。
論文 参考訳(メタデータ) (2024-04-03T09:14:24Z) - Personality-affected Emotion Generation in Dialog Systems [67.40609683389947]
ダイアログシステムに与えられた個性に基づいて感情を生成する新しいタスクであるパーソナリティ影響感情生成を提案する。
本課題の課題,すなわち,(1)個性と感情的要因を不均一に統合し,(2)対話場面における多粒性感情情報を抽出する。
その結果,感情生成性能はマクロF1では13%,重み付きF1では5%向上することが示唆された。
論文 参考訳(メタデータ) (2024-04-03T08:48:50Z) - EmoInHindi: A Multi-label Emotion and Intensity Annotated Dataset in
Hindi for Emotion Recognition in Dialogues [44.79509115642278]
我々はHindiにEmoInHindiという大きな会話データセットを作成し、会話におけるマルチラベルの感情と強度の認識を可能にした。
我々は、精神保健と犯罪被害者の法的カウンセリングのために、ウィザード・オブ・オズの方法でデータセットを作成します。
論文 参考訳(メタデータ) (2022-05-27T11:23:50Z) - M3ED: Multi-modal Multi-scene Multi-label Emotional Dialogue Database [139.08528216461502]
マルチモーダルマルチシーンマルチラベル感情対話データセットM3EDを提案する。
M3EDには56の異なるテレビシリーズの990のダイアドの感情対話があり、合計9,082回、24,449発の発声がある。
我々の知る限りでは、M3EDは中国語における最初のマルチモーダル感情対話データセットである。
論文 参考訳(メタデータ) (2022-05-09T06:52:51Z) - Responsive Listening Head Generation: A Benchmark Dataset and Baseline [58.168958284290156]
本研究では、応答型リスニングヘッド生成タスクを、複数の入力に応答する動きと表現を持つ非言語ヘッドの合成として定義する。
音声によるジェスチャーや音声のヘッド生成とは違って,いくつかの研究分野の恩恵を期待して,このタスクにより多くのモーダルを導入する。
論文 参考訳(メタデータ) (2021-12-27T07:18:50Z) - EmoWOZ: A Large-Scale Corpus and Labelling Scheme for Emotion in
Task-Oriented Dialogue Systems [3.3010169113961325]
EmoWOZはタスク指向対話の大規模手動感情注釈コーパスである。
11K以上の対話と83K以上の感情アノテーションを含む。
本稿では,タスク指向対話に適した新しい感情ラベリング手法を提案する。
論文 参考訳(メタデータ) (2021-09-10T15:00:01Z) - Generating Empathetic Responses with a Large Scale Dialog Dataset [0.76146285961466]
既存のモデルは、応答生成を導くために事前に定義された感情情報を直接組み込むか、応答感情を決定する決定論的ルールを使用する。
6000以上の人的評価インスタンスのベースラインと比較して,マルチターン共感ダイアログモデルの構築方法を示す。
論文 参考訳(メタデータ) (2021-05-14T13:45:40Z) - Vyaktitv: A Multimodal Peer-to-Peer Hindi Conversations based Dataset
for Personality Assessment [50.15466026089435]
本稿では,ピアツーピアのHindi会話データセットであるVyaktitvを提案する。
参加者の高品質な音声とビデオの録音と、会話ごとにヒングリッシュのテキストによる書き起こしで構成されている。
データセットには、収入、文化的指向など、すべての参加者のための豊富な社会デコグラフィー的特徴が含まれています。
論文 参考訳(メタデータ) (2020-08-31T17:44:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。