論文の概要: U-Sticker: A Large-Scale Multi-Domain User Sticker Dataset for Retrieval and Personalization
- arxiv url: http://arxiv.org/abs/2502.19108v2
- Date: Thu, 10 Jul 2025 03:26:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 18:48:43.565857
- Title: U-Sticker: A Large-Scale Multi-Domain User Sticker Dataset for Retrieval and Personalization
- Title(参考訳): U-Sticker: 検索とパーソナライゼーションのための大規模マルチドメインユーザステッカーデータセット
- Authors: Heng Er Metilda Chee, Jiayin Wang, Zhiqiang Guo, Weizhi Ma, Qinglang Guo, Min Zhang,
- Abstract要約: 会話間での時間的およびユーザ匿名IDを含むデータセットであるUser-Stickerを紹介する。
生データは、720時間にわたる67の会話から人気のメッセージングプラットフォームから収集された。
データセットは、これまで他のデータセットで利用できなかったリッチな時間的、多言語的、およびクロスドメインな振る舞いをキャプチャする。
- 参考スコア(独自算出の注目度): 20.082343227750282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instant messaging with texts and stickers has become a widely adopted communication medium, enabling efficient expression of user semantics and emotions. With the increased use of stickers conveying information and feelings, sticker retrieval and recommendation has emerged as an important area of research. However, a major limitation in existing literature has been the lack of datasets capturing temporal and user-specific sticker interactions, which has hindered further progress in user modeling and sticker personalization. To address this, we introduce User-Sticker, a dataset that includes temporal and user anonymous ID across conversations. It is the largest publicly available sticker dataset to date, containing 22K unique users, 370K stickers, and 8.3M messages. The raw data was collected from a popular messaging platform from 67 conversations over 720 hours of crawling. All text and image data were carefully vetted for safety and privacy checks and modifications. Spanning 10 domains, the U-Sticker dataset captures rich temporal, multilingual, and cross-domain behaviors not previously available in other datasets. Extensive quantitative and qualitative experiments demonstrate U-Sticker's practical applications in user behavior modeling and personalized recommendation and highlight its potential to further research areas in personalized retrieval and conversational studies. U-Sticker dataset is publicly available.
- Abstract(参考訳): テキストやステッカーによるインスタントメッセージは広く普及し,ユーザのセマンティクスや感情の効率的な表現を可能にしている。
情報や感情を伝達するステッカーの利用の増加に伴い、ステッカー検索とレコメンデーションが重要な研究領域として浮上している。
しかし、既存の文献の大きな制限は、時間的およびユーザ固有のステッカーインタラクションをキャプチャするデータセットの欠如であり、ユーザモデリングとステッカーパーソナライゼーションのさらなる進歩を妨げている。
この問題に対処するために、会話間での時間的およびユーザ匿名IDを含むデータセットであるUser-Stickerを紹介した。
これまでで最大の公開ステッカーデータセットであり、22Kのユニークなユーザ、370Kのステッカー、8.3Mメッセージが含まれている。
生データは、720時間にわたる67の会話から人気のメッセージングプラットフォームから収集された。
テキストと画像のデータはすべて、安全とプライバシーのチェックと修正のために慎重に検査された。
10ドメインを拡大すると、U-Stickerデータセットは、これまで他のデータセットで利用できなかったリッチな時間的、多言語的、クロスドメインな振る舞いをキャプチャする。
U-Stickerのユーザ行動モデリングとパーソナライズされたレコメンデーションにおける実践的応用を実証し、パーソナライズされた検索と会話研究におけるさらなる研究領域の可能性を強調した。
U-Stickerデータセットが公開されている。
関連論文リスト
- Small Stickers, Big Meanings: A Multilingual Sticker Semantic Understanding Dataset with a Gamified Approach [21.279568613306573]
我々は,多種多様で高品質で,文脈的に共鳴するステッカークエリを収集するために設計された,ゲーミフィケーションアノテーションフレームワークであるSticktionaryを紹介した。
次に、60時間以上のコントリビュータによって注釈付けされた1,115の英語と615の中国語クエリを含む、多言語ステッカークエリデータセットであるStickerQueriesを紹介する。
第3に,本手法がステッカー領域におけるクエリ生成品質,検索精度,意味理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-06-02T13:38:45Z) - Integrating Emotion Distribution Networks and Textual Message Analysis for X User Emotional State Classification [0.0]
この研究は、テキストコンテンツにのみ焦点をあてた従来の感情分析手法が、重要な出来事に対する感情の識別に不十分であることを強調している。
提案手法では,感情分布パターンによる精度が12%向上し,ユーザプロファイルを考慮した場合,15%向上する。
論文 参考訳(メタデータ) (2025-04-11T10:37:35Z) - Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.8776851334100644]
本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。
本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文 参考訳(メタデータ) (2025-03-09T23:14:19Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - PerSRV: Personalized Sticker Retrieval with Vision-Language Model [21.279568613306573]
本稿では,Personalized Sticker Retrieval with Vision-Language Model framework,すなわちPerSRVを提案する。
ステッカーレベルのセマンティック理解のために, 微調整したLLaVA-1.5-7Bを用いて人間のようなステッカーセマンティクスを生成する。
第3に、ユーザの過去のインタラクションに基づいて、スタイルセントロイドをクラスタリングし、個人の嗜好モデリングを実現する。
論文 参考訳(メタデータ) (2024-10-29T07:13:47Z) - WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild [88.05964311416717]
本研究では,高速,多目的,大規模会話分析が可能な対話型ツールWildVisを紹介する。
WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。
誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-05T17:59:15Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Sticker820K: Empowering Interactive Retrieval with Stickers [34.67442172774095]
我々は,820kの画像テキストペアからなる,大規模な中国のステッカーデータセットであるSticker820Kを提案する。
それぞれのステッカーには、説明、光学的文字、感情的ラベル、スタイル分類を含むリッチで高品質なテキストアノテーションがある。
テキスト・ツー・イメージ検索タスクでは、StickerCLIPがCLIPよりも優れていることが示され、平均リコールの66.0%が絶対的に向上した。
論文 参考訳(メタデータ) (2023-06-12T05:06:53Z) - Face Emotion Recognization Using Dataset Augmentation Based on Neural
Network [0.0]
表情は、人の感情や感情の最も外部的な表現の1つである。
対人関係の調整に重要な役割を果たしている。
感情分析の分野の一分野として、表情認識は幅広い応用可能性を提供する。
論文 参考訳(メタデータ) (2022-10-23T10:21:45Z) - Selecting Stickers in Open-Domain Dialogue through Multitask Learning [51.67855506570727]
本稿では,3つの補助課題からなるマルチタスク学習手法を提案する。
我々のモデルは多モード情報をうまく組み合わせて、強いベースラインよりもはるかに高い精度が得られる。
論文 参考訳(メタデータ) (2022-09-16T03:45:22Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - AdCOFE: Advanced Contextual Feature Extraction in Conversations for
emotion classification [0.29360071145551075]
提案したAdCOFE(Advanced Contextual Feature extract)モデルはこれらの問題に対処する。
会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情のキャプチャに有益であることを示しています。
論文 参考訳(メタデータ) (2021-04-09T17:58:19Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning to Respond with Your Favorite Stickers: A Framework of Unifying
Multi-Modality and User Preference in Multi-Turn Dialog [67.91114640314004]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプイメージと過去の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
ユーザ履歴を用いたマルチターン・ダイアログ・コンテキストとステッカーに基づいて,ユーザに対して適切なステッカーを推奨する。
論文 参考訳(メタデータ) (2020-11-05T03:31:17Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Learning to Respond with Stickers: A Framework of Unifying
Multi-Modality in Multi-Turn Dialog [65.7021675527543]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプのテキストラベルと以前の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
我々は,外部ラベルを使わずに,マルチターン・ダイアログのコンテキスト履歴に基づいた適切なステッカーをユーザに提案する。
論文 参考訳(メタデータ) (2020-03-10T13:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。