論文の概要: A 106K Multi-Topic Multilingual Conversational User Dataset with Emoticons
- arxiv url: http://arxiv.org/abs/2502.19108v1
- Date: Wed, 26 Feb 2025 12:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 14:55:22.247005
- Title: A 106K Multi-Topic Multilingual Conversational User Dataset with Emoticons
- Title(参考訳): エモティコンを用いた106Kマルチトピック多言語会話ユーザデータセット
- Authors: Heng Er Metilda Chee, Jiayin Wang, Zhiqiang Guo, Weizhi Ma, Qinglang Guo, Min Zhang,
- Abstract要約: エモティコンは感情や情報を伝える媒体として大きな注目を集めている。
我々は、匿名ユーザ識別子とともに、時間ベースのデータを含む包括的なリソースであるエモティコンデータセットを紹介した。
これまでで最大の公開エモティコンデータセットとして、22Kのユニークなユーザ、370Kのエモティコン、8.3Mメッセージがある。
- 参考スコア(独自算出の注目度): 20.082343227750282
- License:
- Abstract: Instant messaging has become a predominant form of communication, with texts and emoticons enabling users to express emotions and ideas efficiently. Emoticons, in particular, have gained significant traction as a medium for conveying sentiments and information, leading to the growing importance of emoticon retrieval and recommendation systems. However, one of the key challenges in this area has been the absence of datasets that capture both the temporal dynamics and user-specific interactions with emoticons, limiting the progress of personalized user modeling and recommendation approaches. To address this, we introduce the emoticon dataset, a comprehensive resource that includes time-based data along with anonymous user identifiers across different conversations. As the largest publicly accessible emoticon dataset to date, it comprises 22K unique users, 370K emoticons, and 8.3M messages. The data was collected from a widely-used messaging platform across 67 conversations and 720 hours of crawling. Strict privacy and safety checks were applied to ensure the integrity of both text and image data. Spanning across 10 distinct domains, the emoticon dataset provides rich insights into temporal, multilingual, and cross-domain behaviors, which were previously unavailable in other emoticon-based datasets. Our in-depth experiments, both quantitative and qualitative, demonstrate the dataset's potential in modeling user behavior and personalized recommendation systems, opening up new possibilities for research in personalized retrieval and conversational AI. The dataset is freely accessible.
- Abstract(参考訳): インスタントメッセージングは、ユーザーが感情やアイデアを効率的に表現できるテキストやエモティコンによって、コミュニケーションの主流となっている。
特にエモティコンは感情や情報を伝える媒体として大きな注目を集めており、エモティコン検索やレコメンデーションシステムの重要性が高まっている。
しかし、この分野の重要な課題の1つは、時間的ダイナミクスとエモティコンとのユーザ固有のインタラクションの両方を捉え、パーソナライズされたユーザーモデリングとレコメンデーションアプローチの進捗を制限するデータセットがないことである。
これに対処するために、異なる会話をまたいだ匿名ユーザ識別子とともに、時間ベースのデータを含む包括的なリソースである、エモティコンデータセットを導入しました。
これまでで最大の公開エモティコンデータセットとして、22Kのユニークなユーザ、370Kのエモティコン、8.3Mメッセージがある。
データは67の会話と720時間のクロールで、広く使われているメッセージングプラットフォームから収集された。
テキストデータと画像データの整合性を確保するために、厳密なプライバシーと安全チェックが適用された。
10の異なるドメインにまたがって、エモティコンデータセットは、以前は他のエモティコンベースのデータセットでは利用できなかった、時間的、多言語的、ドメイン横断的な振る舞いに関する豊富な洞察を提供する。
我々の詳細な実験は、定量的かつ定性的であり、ユーザーの振る舞いとパーソナライズされたレコメンデーションシステムのモデリングにおけるデータセットの可能性を示し、パーソナライズされた検索と会話型AIの研究の新たな可能性を開く。
データセットは自由にアクセスできます。
関連論文リスト
- REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Face Emotion Recognization Using Dataset Augmentation Based on Neural
Network [0.0]
表情は、人の感情や感情の最も外部的な表現の1つである。
対人関係の調整に重要な役割を果たしている。
感情分析の分野の一分野として、表情認識は幅広い応用可能性を提供する。
論文 参考訳(メタデータ) (2022-10-23T10:21:45Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - AdCOFE: Advanced Contextual Feature Extraction in Conversations for
emotion classification [0.29360071145551075]
提案したAdCOFE(Advanced Contextual Feature extract)モデルはこれらの問題に対処する。
会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情のキャプチャに有益であることを示しています。
論文 参考訳(メタデータ) (2021-04-09T17:58:19Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network
for Emotional Conversation Generation [25.808037796936766]
実世界の会話では,マルチソース情報から感情を直感的に知覚する。
感情的会話生成のための異種グラフモデルを提案する。
実験結果は,本モデルがマルチソース知識から感情を効果的に知覚できることを示した。
論文 参考訳(メタデータ) (2020-12-09T06:09:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。