論文の概要: emojiSpace: Spatial Representation of Emojis
- arxiv url: http://arxiv.org/abs/2209.09871v1
- Date: Mon, 12 Sep 2022 13:57:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 17:13:39.099152
- Title: emojiSpace: Spatial Representation of Emojis
- Title(参考訳): emojispace:絵文字の空間表現
- Authors: Moeen Mostafavi, Mahsa Pahlavikhah Varnosfaderani, Fateme Nikseresht,
Seyed Ahmad Mansouri
- Abstract要約: そこで本研究では,Python の Genism ライブラリから word2vec モデルを用いて,単語-絵文字を組み込んだ絵文字空間を構築した。
われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットで感情分析を実施して評価した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the absence of nonverbal cues during messaging communication, users
express part of their emotions using emojis. Thus, having emojis in the
vocabulary of text messaging language models can significantly improve many
natural language processing (NLP) applications such as online communication
analysis. On the other hand, word embedding models are usually trained on a
very large corpus of text such as Wikipedia or Google News datasets that
include very few samples with emojis. In this study, we create emojiSpace,
which is a combined word-emoji embedding using the word2vec model from the
Genism library in Python. We trained emojiSpace on a corpus of more than 4
billion tweets and evaluated it by implementing sentiment analysis on a Twitter
dataset containing more than 67 million tweets as an extrinsic task. For this
task, we compared the performance of two different classifiers of random forest
(RF) and linear support vector machine (SVM). For evaluation, we compared
emojiSpace performance with two other pre-trained embeddings and demonstrated
that emojiSpace outperforms both.
- Abstract(参考訳): メッセージコミュニケーション中に非言語的なヒントがない場合、ユーザーは絵文字を使って感情の一部を表現する。
したがって、テキストメッセージング言語モデルの語彙に絵文字を持つことは、オンラインコミュニケーション分析のような多くの自然言語処理(NLP)アプリケーションを大幅に改善することができる。
一方、単語埋め込みモデルは、通常、非常に少ない絵文字のサンプルを含むwikipediaやgoogle newsデータセットのような非常に大きなテキストコーパスで訓練される。
本研究では,python のgenism ライブラリから word2vec モデルを用いて,word-emoji を組み込んだ emojispace を開発した。
われわれは40億以上のツイートからなるコーパスで絵文字スペースをトレーニングし、6700万以上のツイートを含むTwitterデータセットに感情分析を実装して評価した。
本研究では,ランダムフォレスト (rf) と線形支持ベクトルマシン (svm) の2つの異なる分類器の性能を比較した。
評価のために,絵文字空間の性能と事前学習した他の2つの埋め込みとの比較を行った。
関連論文リスト
- Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - T2S-GPT: Dynamic Vector Quantization for Autoregressive Sign Language Production from Text [59.57676466961787]
本稿では,手話における情報密度に基づいて符号化長を調整できる新しい動的ベクトル量子化(DVA-VAE)モデルを提案する。
PHOENIX14Tデータセットを用いて実験を行い,提案手法の有効性を示した。
我々は,486時間の手話ビデオ,音声,文字起こしテキストを含むドイツ語手話データセットPHOENIX-Newsを提案する。
論文 参考訳(メタデータ) (2024-06-11T10:06:53Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Emoji Prediction in Tweets using BERT [0.0]
本稿では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。
我々はBERTをテキストと絵文字の両方を含む大量のテキスト(つぶやき)のコーパスで微調整し、与えられたテキストに対して最も適切な絵文字を予測する。
実験の結果,提案手法は,75%以上の精度で絵文字の予測において,最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-05T06:38:52Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment
Anaylsis [9.447106020795292]
我々はEmoGraph2vecと呼ばれる絵文字表現を学習し、絵文字対応のコアテンションネットワークを設計する手法を提案する。
我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起ブロックを畳み込みニューラルネットワークに統合する。
実験結果から,提案モデルは,ベンチマークデータセットの感情分析において,いくつかのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2021-10-27T08:01:10Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - A `Sourceful' Twist: Emoji Prediction Based on Sentiment, Hashtags and
Application Source [1.6818451361240172]
モデルが関係する感情を理解し、テキストに最適な絵文字を予測するのを助けるためにTwitterの機能を使用することの重要性を紹介します。
データ分析とニューラルネットワークモデルのパフォーマンス評価は、ハッシュタグとアプリケーションソースを特徴として使用することで、異なる情報をエンコードすることができ、絵文字の予測に有効であることを示している。
論文 参考訳(メタデータ) (2021-03-14T03:05:04Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。