論文の概要: Emoji Retrieval from Gibberish or Garbled Social Media Text: A Novel Methodology and A Case Study
- arxiv url: http://arxiv.org/abs/2412.18046v1
- Date: Mon, 23 Dec 2024 23:44:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-25 15:57:03.881058
- Title: Emoji Retrieval from Gibberish or Garbled Social Media Text: A Novel Methodology and A Case Study
- Title(参考訳): Gibberish あるいは Garbled のソーシャルメディアテキストからの絵文字検索 : 新しい手法と事例研究
- Authors: Shuqi Cui, Nirmalya Thakur, Audrey Poon,
- Abstract要約: 絵文字はソーシャルメディアプラットフォームで広く使われているが、騒々しいテキストや派手なテキストでしばしば失われる。
本稿では,ソーシャルメディア投稿中のニンブルテキストから絵文字を検索する3段階のリバースエンジニアリング手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Emojis are widely used across social media platforms but are often lost in noisy or garbled text, posing challenges for data analysis and machine learning. Conventional preprocessing approaches recommend removing such text, risking the loss of emojis and their contextual meaning. This paper proposes a three-step reverse-engineering methodology to retrieve emojis from garbled text in social media posts. The methodology also identifies reasons for the generation of such text during social media data mining. To evaluate its effectiveness, the approach was applied to 509,248 Tweets about the Mpox outbreak, a dataset referenced in about 30 prior works that failed to retrieve emojis from garbled text. Our method retrieved 157,748 emojis from 76,914 Tweets. Improvements in text readability and coherence were demonstrated through metrics such as Flesch Reading Ease, Flesch-Kincaid Grade Level, Coleman-Liau Index, Automated Readability Index, Dale-Chall Readability Score, Text Standard, and Reading Time. Additionally, the frequency of individual emojis and their patterns of usage in these Tweets were analyzed, and the results are presented.
- Abstract(参考訳): 絵文字はソーシャルメディアプラットフォームで広く使われているが、騒々しいテキストや派手なテキストでしばしば失われ、データ分析や機械学習の課題に悩まされる。
従来の前処理アプローチでは、このようなテキストを削除することを推奨し、絵文字の喪失とその文脈的意味を危険にさらす。
本稿では,ソーシャルメディア投稿中のニンブルテキストから絵文字を検索する3段階のリバースエンジニアリング手法を提案する。
この方法論は、ソーシャルメディアデータマイニング中にこのようなテキストを生成する理由も特定する。
有効性を評価するため、この手法は509,248件のMpoxアウトブレイクに関するツイートに適用された。
76,914ツイートから157,748の絵文字を検索した。
Flesch Reading Ease、Flesch-Kincaid Grade Level、Coleman-Liau Index、Automated Readability Index、Dale-Chall Readability Score、Text Standard、Reading Timeといったメトリクスによって、テキストの可読性とコヒーレンスが改善された。
さらに、個々の絵文字の頻度と、これらのつぶやきにおける使用パターンを分析し、その結果を提示した。
関連論文リスト
- Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training [22.452853652070413]
ソーシャルメディアデータマイニングにおける絵文字のパワーを解放します。
テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-22T18:29:10Z) - Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Emoji Prediction in Tweets using BERT [0.0]
本稿では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。
我々はBERTをテキストと絵文字の両方を含む大量のテキスト(つぶやき)のコーパスで微調整し、与えられたテキストに対して最も適切な絵文字を予測する。
実験の結果,提案手法は,75%以上の精度で絵文字の予測において,最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-05T06:38:52Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment
Anaylsis [9.447106020795292]
我々はEmoGraph2vecと呼ばれる絵文字表現を学習し、絵文字対応のコアテンションネットワークを設計する手法を提案する。
我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起ブロックを畳み込みニューラルネットワークに統合する。
実験結果から,提案モデルは,ベンチマークデータセットの感情分析において,いくつかのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2021-10-27T08:01:10Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - A `Sourceful' Twist: Emoji Prediction Based on Sentiment, Hashtags and
Application Source [1.6818451361240172]
モデルが関係する感情を理解し、テキストに最適な絵文字を予測するのを助けるためにTwitterの機能を使用することの重要性を紹介します。
データ分析とニューラルネットワークモデルのパフォーマンス評価は、ハッシュタグとアプリケーションソースを特徴として使用することで、異なる情報をエンコードすることができ、絵文字の予測に有効であることを示している。
論文 参考訳(メタデータ) (2021-03-14T03:05:04Z) - Assessing Emoji Use in Modern Text Processing Tools [35.79765461713127]
絵文字は視覚的魅力と人間の感情を鮮明に伝える能力から、デジタルコミュニケーションにおいてユビキタスになりつつある。
ソーシャルメディアや他のインスタントメッセージングにおける絵文字の普及は、絵文字を含むテキストを操作するシステムやツールの必要性も高まっている。
本研究では,絵文字を用いたツイートのテストセットを検討することで,このサポートを評価する。そこでは,著名なnlpおよびテキスト処理ツールが適切に処理できるかどうかについて,一連の実験を行う。
論文 参考訳(メタデータ) (2021-01-02T11:38:05Z) - Forensic Authorship Analysis of Microblogging Texts Using N-Grams and
Stylometric Features [63.48764893706088]
この研究は、280文字に制限されたツイートメッセージの作者を特定することを目的としている。
弊社の実験では、40名のユーザによる、ユーザ毎120から200のつぶやきを自己キャプチャしたデータベースを使っています。
この小さなセットを使った結果は有望であり、異なる特徴は92%から98.5%の分類精度を提供する。
論文 参考訳(メタデータ) (2020-03-24T19:32:11Z) - TextScanner: Reading Characters in Order for Robust Scene Text
Recognition [60.04267660533966]
TextScannerはシーンテキスト認識の代替手法である。
文字クラス、位置、順序に対する画素単位のマルチチャネルセグメンテーションマップを生成する。
また、コンテキストモデリングにRNNを採用し、文字の位置とクラスを並列で予測する。
論文 参考訳(メタデータ) (2019-12-28T07:52:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。