論文の概要: U-Sticker: A Large-Scale Multi-Domain User Sticker Dataset for Retrieval and Personalization
- arxiv url: http://arxiv.org/abs/2502.19108v2
- Date: Thu, 10 Jul 2025 03:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 18:48:43.565857
- Title: U-Sticker: A Large-Scale Multi-Domain User Sticker Dataset for Retrieval and Personalization
- Title(参考訳): U-Sticker: 検索とパーソナライゼーションのための大規模マルチドメインユーザステッカーデータセット
- Authors: Heng Er Metilda Chee, Jiayin Wang, Zhiqiang Guo, Weizhi Ma, Qinglang Guo, Min Zhang,
- Abstract要約: 会話間での時間的およびユーザ匿名IDを含むデータセットであるUser-Stickerを紹介する。
生データは、720時間にわたる67の会話から人気のメッセージングプラットフォームから収集された。
データセットは、これまで他のデータセットで利用できなかったリッチな時間的、多言語的、およびクロスドメインな振る舞いをキャプチャする。
- 参考スコア(独自算出の注目度): 20.082343227750282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instant messaging with texts and stickers has become a widely adopted communication medium, enabling efficient expression of user semantics and emotions. With the increased use of stickers conveying information and feelings, sticker retrieval and recommendation has emerged as an important area of research. However, a major limitation in existing literature has been the lack of datasets capturing temporal and user-specific sticker interactions, which has hindered further progress in user modeling and sticker personalization. To address this, we introduce User-Sticker, a dataset that includes temporal and user anonymous ID across conversations. It is the largest publicly available sticker dataset to date, containing 22K unique users, 370K stickers, and 8.3M messages. The raw data was collected from a popular messaging platform from 67 conversations over 720 hours of crawling. All text and image data were carefully vetted for safety and privacy checks and modifications. Spanning 10 domains, the U-Sticker dataset captures rich temporal, multilingual, and cross-domain behaviors not previously available in other datasets. Extensive quantitative and qualitative experiments demonstrate U-Sticker's practical applications in user behavior modeling and personalized recommendation and highlight its potential to further research areas in personalized retrieval and conversational studies. U-Sticker dataset is publicly available.
- Abstract(参考訳): テキストやステッカーによるインスタントメッセージは広く普及し,ユーザのセマンティクスや感情の効率的な表現を可能にしている。
情報や感情を伝達するステッカーの利用の増加に伴い、ステッカー検索とレコメンデーションが重要な研究領域として浮上している。
しかし、既存の文献の大きな制限は、時間的およびユーザ固有のステッカーインタラクションをキャプチャするデータセットの欠如であり、ユーザモデリングとステッカーパーソナライゼーションのさらなる進歩を妨げている。
この問題に対処するために、会話間での時間的およびユーザ匿名IDを含むデータセットであるUser-Stickerを紹介した。
これまでで最大の公開ステッカーデータセットであり、22Kのユニークなユーザ、370Kのステッカー、8.3Mメッセージが含まれている。
生データは、720時間にわたる67の会話から人気のメッセージングプラットフォームから収集された。
テキストと画像のデータはすべて、安全とプライバシーのチェックと修正のために慎重に検査された。
10ドメインを拡大すると、U-Stickerデータセットは、これまで他のデータセットで利用できなかったリッチな時間的、多言語的、クロスドメインな振る舞いをキャプチャする。
U-Stickerのユーザ行動モデリングとパーソナライズされたレコメンデーションにおける実践的応用を実証し、パーソナライズされた検索と会話研究におけるさらなる研究領域の可能性を強調した。
U-Stickerデータセットが公開されている。
関連論文リスト
- Integrating Emotion Distribution Networks and Textual Message Analysis for X User Emotional State Classification [0.0]
この研究は、テキストコンテンツにのみ焦点をあてた従来の感情分析手法が、重要な出来事に対する感情の識別に不十分であることを強調している。
提案手法では,感情分布パターンによる精度が12%向上し,ユーザプロファイルを考慮した場合,15%向上する。
論文 参考訳(メタデータ) (2025-04-11T10:37:35Z) - Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.8776851334100644]
本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。
本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文 参考訳(メタデータ) (2025-03-09T23:14:19Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Face Emotion Recognization Using Dataset Augmentation Based on Neural
Network [0.0]
表情は、人の感情や感情の最も外部的な表現の1つである。
対人関係の調整に重要な役割を果たしている。
感情分析の分野の一分野として、表情認識は幅広い応用可能性を提供する。
論文 参考訳(メタデータ) (2022-10-23T10:21:45Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - AdCOFE: Advanced Contextual Feature Extraction in Conversations for
emotion classification [0.29360071145551075]
提案したAdCOFE(Advanced Contextual Feature extract)モデルはこれらの問題に対処する。
会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情のキャプチャに有益であることを示しています。
論文 参考訳(メタデータ) (2021-04-09T17:58:19Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。