論文の概要: A 106K Multi-Topic Multilingual Conversational User Dataset with Emoticons
- arxiv url: http://arxiv.org/abs/2502.19108v1
- Date: Wed, 26 Feb 2025 12:50:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-27 15:24:46.504253
- Title: A 106K Multi-Topic Multilingual Conversational User Dataset with Emoticons
- Title(参考訳): エモティコンを用いた106Kマルチトピック多言語会話ユーザデータセット
- Authors: Heng Er Metilda Chee, Jiayin Wang, Zhiqiang Guo, Weizhi Ma, Qinglang Guo, Min Zhang,
- Abstract要約: エモティコンは感情や情報を伝える媒体として大きな注目を集めている。
我々は、匿名ユーザ識別子とともに、時間ベースのデータを含む包括的なリソースであるエモティコンデータセットを紹介した。
これまでで最大の公開エモティコンデータセットとして、22Kのユニークなユーザ、370Kのエモティコン、8.3Mメッセージがある。
- 参考スコア(独自算出の注目度): 20.082343227750282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instant messaging has become a predominant form of communication, with texts and emoticons enabling users to express emotions and ideas efficiently. Emoticons, in particular, have gained significant traction as a medium for conveying sentiments and information, leading to the growing importance of emoticon retrieval and recommendation systems. However, one of the key challenges in this area has been the absence of datasets that capture both the temporal dynamics and user-specific interactions with emoticons, limiting the progress of personalized user modeling and recommendation approaches. To address this, we introduce the emoticon dataset, a comprehensive resource that includes time-based data along with anonymous user identifiers across different conversations. As the largest publicly accessible emoticon dataset to date, it comprises 22K unique users, 370K emoticons, and 8.3M messages. The data was collected from a widely-used messaging platform across 67 conversations and 720 hours of crawling. Strict privacy and safety checks were applied to ensure the integrity of both text and image data. Spanning across 10 distinct domains, the emoticon dataset provides rich insights into temporal, multilingual, and cross-domain behaviors, which were previously unavailable in other emoticon-based datasets. Our in-depth experiments, both quantitative and qualitative, demonstrate the dataset's potential in modeling user behavior and personalized recommendation systems, opening up new possibilities for research in personalized retrieval and conversational AI. The dataset is freely accessible.
- Abstract(参考訳): インスタントメッセージングは、ユーザーが感情やアイデアを効率的に表現できるテキストやエモティコンによって、コミュニケーションの主流となっている。
特にエモティコンは感情や情報を伝える媒体として大きな注目を集めており、エモティコン検索やレコメンデーションシステムの重要性が高まっている。
しかし、この分野の重要な課題の1つは、時間的ダイナミクスとエモティコンとのユーザ固有のインタラクションの両方を捉え、パーソナライズされたユーザーモデリングとレコメンデーションアプローチの進捗を制限するデータセットがないことである。
これに対処するために、異なる会話をまたいだ匿名ユーザ識別子とともに、時間ベースのデータを含む包括的なリソースである、エモティコンデータセットを導入しました。
これまでで最大の公開エモティコンデータセットとして、22Kのユニークなユーザ、370Kのエモティコン、8.3Mメッセージがある。
データは67の会話と720時間のクロールで、広く使われているメッセージングプラットフォームから収集された。
テキストデータと画像データの整合性を確保するために、厳密なプライバシーと安全チェックが適用された。
10の異なるドメインにまたがって、エモティコンデータセットは、以前は他のエモティコンベースのデータセットでは利用できなかった、時間的、多言語的、ドメイン横断的な振る舞いに関する豊富な洞察を提供する。
我々の詳細な実験は、定量的かつ定性的であり、ユーザーの振る舞いとパーソナライズされたレコメンデーションシステムのモデリングにおけるデータセットの可能性を示し、パーソナライズされた検索と会話型AIの研究の新たな可能性を開く。
データセットは自由にアクセスできます。
関連論文リスト
- Small Stickers, Big Meanings: A Multilingual Sticker Semantic Understanding Dataset with a Gamified Approach [21.279568613306573]
我々は,多種多様で高品質で,文脈的に共鳴するステッカークエリを収集するために設計された,ゲーミフィケーションアノテーションフレームワークであるSticktionaryを紹介した。
次に、60時間以上のコントリビュータによって注釈付けされた1,115の英語と615の中国語クエリを含む、多言語ステッカークエリデータセットであるStickerQueriesを紹介する。
第3に,本手法がステッカー領域におけるクエリ生成品質,検索精度,意味理解を著しく向上させることを示す。
論文 参考訳(メタデータ) (2025-06-02T13:38:45Z) - Integrating Emotion Distribution Networks and Textual Message Analysis for X User Emotional State Classification [0.0]
この研究は、テキストコンテンツにのみ焦点をあてた従来の感情分析手法が、重要な出来事に対する感情の識別に不十分であることを強調している。
提案手法では,感情分布パターンによる精度が12%向上し,ユーザプロファイルを考慮した場合,15%向上する。
論文 参考訳(メタデータ) (2025-04-11T10:37:35Z) - Multimodal Emotion Recognition and Sentiment Analysis in Multi-Party Conversation Contexts [3.8776851334100644]
本稿では、よく知られたデータセット上でこれらの課題に取り組むためのマルチモーダルアプローチを提案する。
本稿では,テキスト用RoBERTa,音声用Wav2Vec2,表情用FacialNet,ビデオ解析用CNN+Transformerアーキテクチャの4つの重要なモダリティ/チャネルを統合するシステムを提案する。
論文 参考訳(メタデータ) (2025-03-09T23:14:19Z) - REALTALK: A 21-Day Real-World Dataset for Long-Term Conversation [51.97224538045096]
本稿では、21日間のメッセージアプリ対話のコーパスであるREALTALKを紹介する。
EI属性とペルソナの整合性を比較し,現実世界の対話による課題を理解する。
その結果,モデルでは対話履歴のみからユーザをシミュレートすることが困難であり,特定のユーザチャットの微調整はペルソナのエミュレーションを改善することがわかった。
論文 参考訳(メタデータ) (2025-02-18T20:29:01Z) - Leveraging Cross-Attention Transformer and Multi-Feature Fusion for Cross-Linguistic Speech Emotion Recognition [60.58049741496505]
音声感情認識(SER)は、人間とコンピュータの相互作用を強化する上で重要な役割を担っている。
本稿では,HuBERT,MFCC,および韻律特性を組み合わせたHuMP-CATを提案する。
HMP-CATは、ターゲットデータセットから少量の音声でソースモデルを微調整することにより、平均78.75%の精度が得られることを示す。
論文 参考訳(メタデータ) (2025-01-06T14:31:25Z) - PerSRV: Personalized Sticker Retrieval with Vision-Language Model [21.279568613306573]
本稿では,Personalized Sticker Retrieval with Vision-Language Model framework,すなわちPerSRVを提案する。
ステッカーレベルのセマンティック理解のために, 微調整したLLaVA-1.5-7Bを用いて人間のようなステッカーセマンティクスを生成する。
第3に、ユーザの過去のインタラクションに基づいて、スタイルセントロイドをクラスタリングし、個人の嗜好モデリングを実現する。
論文 参考訳(メタデータ) (2024-10-29T07:13:47Z) - WildVis: Open Source Visualizer for Million-Scale Chat Logs in the Wild [88.05964311416717]
本研究では,高速,多目的,大規模会話分析が可能な対話型ツールWildVisを紹介する。
WildVisは、基準リストに基づいてテキストと埋め込みスペースの検索と視覚化機能を提供する。
誤用調査の促進,データセット間のトピック分布の可視化と比較,ユーザ固有の会話パターンの特徴付け,という3つのケーススタディを通じてWildVisの有用性を実証する。
論文 参考訳(メタデータ) (2024-09-05T17:59:15Z) - Emotion and Intent Joint Understanding in Multimodal Conversation: A Benchmarking Dataset [74.74686464187474]
Emotion and Intent Joint Understanding in Multimodal Conversation (MC-EIU)は、マルチモーダルな会話履歴に現れる意味情報をデコードすることを目的としている。
MC-EIUは多くのヒューマン・コンピュータ・インタフェースのテクノロジーを実現している。
MC-EIUデータセットは,7つの感情カテゴリー,9つの意図カテゴリ,3つのモダリティ,すなわちテキスト,音響,視覚的内容,および英語とマンダリンの2つの言語を特徴とする。
論文 参考訳(メタデータ) (2024-07-03T01:56:00Z) - Towards Generalizable SER: Soft Labeling and Data Augmentation for
Modeling Temporal Emotion Shifts in Large-Scale Multilingual Speech [3.86122440373248]
段階的な感情的強度を捉えるソフトラベルシステムを提案する。
コントラスト学習にインスパイアされたWhisperエンコーダとデータ拡張手法を用いて,感情の時間的ダイナミクスを強調する。
Hume-Prosodyを微調整した後、オープンソースモデルウェイトと最初の有望な結果を公開する。
論文 参考訳(メタデータ) (2023-11-15T00:09:21Z) - Dynamic Causal Disentanglement Model for Dialogue Emotion Detection [77.96255121683011]
隠れ変数分離に基づく動的因果解離モデルを提案する。
このモデルは、対話の内容を効果的に分解し、感情の時間的蓄積を調べる。
具体的には,発話と隠れ変数の伝搬を推定する動的時間的ゆがみモデルを提案する。
論文 参考訳(メタデータ) (2023-09-13T12:58:09Z) - Sticker820K: Empowering Interactive Retrieval with Stickers [34.67442172774095]
我々は,820kの画像テキストペアからなる,大規模な中国のステッカーデータセットであるSticker820Kを提案する。
それぞれのステッカーには、説明、光学的文字、感情的ラベル、スタイル分類を含むリッチで高品質なテキストアノテーションがある。
テキスト・ツー・イメージ検索タスクでは、StickerCLIPがCLIPよりも優れていることが示され、平均リコールの66.0%が絶対的に向上した。
論文 参考訳(メタデータ) (2023-06-12T05:06:53Z) - Face Emotion Recognization Using Dataset Augmentation Based on Neural
Network [0.0]
表情は、人の感情や感情の最も外部的な表現の1つである。
対人関係の調整に重要な役割を果たしている。
感情分析の分野の一分野として、表情認識は幅広い応用可能性を提供する。
論文 参考訳(メタデータ) (2022-10-23T10:21:45Z) - Selecting Stickers in Open-Domain Dialogue through Multitask Learning [51.67855506570727]
本稿では,3つの補助課題からなるマルチタスク学習手法を提案する。
我々のモデルは多モード情報をうまく組み合わせて、強いベースラインよりもはるかに高い精度が得られる。
論文 参考訳(メタデータ) (2022-09-16T03:45:22Z) - CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset
for Conversational AI [48.67259855309959]
会話型AIのための既存のデータセットのほとんどは、人間の個性や感情を無視している。
CPEDは,中国における大規模パーソナライズされた感情対話データセットである。
CPEDには40のテレビ番組から392人の話者の12K以上の対話が含まれている。
論文 参考訳(メタデータ) (2022-05-29T17:45:12Z) - BEAT: A Large-Scale Semantic and Emotional Multi-Modal Dataset for
Conversational Gestures Synthesis [9.95713767110021]
Body-Expression-Audio-Textデータセットには、76時間、高品質、マルチモーダルなデータがあり、8つの異なる感情と4つの異なる言語で話す30人の話者から取得されている。
BEATは人間のジェスチャーを調べるための最大のモーションキャプチャーデータセットである。
論文 参考訳(メタデータ) (2022-03-10T11:19:52Z) - AdCOFE: Advanced Contextual Feature Extraction in Conversations for
emotion classification [0.29360071145551075]
提案したAdCOFE(Advanced Contextual Feature extract)モデルはこれらの問題に対処する。
会話データセットにおける感情認識の実験は、AdCOFEが会話中の感情のキャプチャに有益であることを示しています。
論文 参考訳(メタデータ) (2021-04-09T17:58:19Z) - Dialogue History Matters! Personalized Response Selectionin Multi-turn
Retrieval-based Chatbots [62.295373408415365]
本稿では,コンテキスト応答マッチングのためのパーソナライズドハイブリッドマッチングネットワーク(phmn)を提案する。
1) ユーザ固有の対話履歴からパーソナライズされた発話行動を付加的なマッチング情報として抽出する。
ユーザ識別による2つの大規模データセット,すなわちパーソナライズされた対話 Corpus Ubuntu (P-Ubuntu) とパーソナライズされたWeiboデータセット (P-Weibo) のモデルを評価する。
論文 参考訳(メタデータ) (2021-03-17T09:42:11Z) - Learning to Respond with Your Favorite Stickers: A Framework of Unifying
Multi-Modality and User Preference in Multi-Turn Dialog [67.91114640314004]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプイメージと過去の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
ユーザ履歴を用いたマルチターン・ダイアログ・コンテキストとステッカーに基づいて,ユーザに対して適切なステッカーを推奨する。
論文 参考訳(メタデータ) (2020-11-05T03:31:17Z) - Adversarial Knowledge Transfer from Unlabeled Data [62.97253639100014]
本稿では,インターネット規模の未ラベルデータから知識を伝達し,分類器の性能を向上させるための新しいAdversarial Knowledge Transferフレームワークを提案する。
我々の手法の重要な新しい側面は、ラベル付けされていないソースデータは、ラベル付けされたターゲットデータと異なるクラスであることができ、個別のプリテキストタスクを定義する必要がないことである。
論文 参考訳(メタデータ) (2020-08-13T08:04:27Z) - TAO: A Large-Scale Benchmark for Tracking Any Object [95.87310116010185]
オブジェクトのデータセットの追跡は2,907本の高解像度ビデオで構成され、平均で30分の長さの多様な環境でキャプチャされる。
ビデオの任意の時点で移動するオブジェクトにアノテータにラベルを付け、ファクトラムの後に名前を付けるように求めます。
我々の語彙は、既存の追跡データセットと著しく大きく、質的に異なる。
論文 参考訳(メタデータ) (2020-05-20T21:07:28Z) - Learning to Respond with Stickers: A Framework of Unifying
Multi-Modality in Multi-Turn Dialog [65.7021675527543]
鮮明で魅力的な表現を持つスタンプは、オンラインメッセージングアプリでますます人気が高まっている。
スタンプのテキストラベルと以前の発話をマッチングすることで、スタンプ応答を自動的に選択する作業もある。
我々は,外部ラベルを使わずに,マルチターン・ダイアログのコンテキスト履歴に基づいた適切なステッカーをユーザに提案する。
論文 参考訳(メタデータ) (2020-03-10T13:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。