論文の概要: Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training
- arxiv url: http://arxiv.org/abs/2409.14552v2
- Date: Thu, 26 Sep 2024 02:02:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 22:19:40.834498
- Title: Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training
- Title(参考訳): 自己教師型グラフ事前学習によるテキスト中の絵文字のパワーの解放
- Authors: Zhou Zhang, Dongzeng Tan, Jiaan Wang, Yilong Chen, Jiarong Xu,
- Abstract要約: ソーシャルメディアデータマイニングにおける絵文字のパワーを解放します。
テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 22.452853652070413
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emojis have gained immense popularity on social platforms, serving as a common means to supplement or replace text. However, existing data mining approaches generally either completely ignore or simply treat emojis as ordinary Unicode characters, which may limit the model's ability to grasp the rich semantic information in emojis and the interaction between emojis and texts. Thus, it is necessary to release the emoji's power in social media data mining. To this end, we first construct a heterogeneous graph consisting of three types of nodes, i.e. post, word and emoji nodes to improve the representation of different elements in posts. The edges are also well-defined to model how these three elements interact with each other. To facilitate the sharing of information among post, word and emoji nodes, we propose a graph pre-train framework for text and emoji co-modeling, which contains two graph pre-training tasks: node-level graph contrastive learning and edge-level link reconstruction learning. Extensive experiments on the Xiaohongshu and Twitter datasets with two types of downstream tasks demonstrate that our approach proves significant improvement over previous strong baseline methods.
- Abstract(参考訳): 絵文字はソーシャルプラットフォーム上で大きな人気を集めており、テキストを補完したり置き換えたりするための一般的な手段となっている。
しかし、既存のデータマイニング手法は一般的に、絵文字を完全に無視するか、単に通常のUnicode文字として扱うかのいずれかであり、絵文字の豊かな意味情報と絵文字とテキスト間の相互作用をモデルが把握する能力を制限する可能性がある。
したがって、ソーシャルメディアデータマイニングにおける絵文字のパワーを解放する必要がある。
この目的のために、まず、ポスト、ワード、絵文字の3種類のノードからなる異種グラフを構築し、ポストにおける異なる要素の表現を改善する。
エッジは、これらの3つの要素が相互に相互作用する方法をモデル化するためにもよく定義されています。
ポストノード,ワードノード,絵文字ノード間での情報共有を容易にするために,ノードレベルのグラフコントラスト学習とエッジレベルのリンク再構築学習という,2つのグラフ事前学習タスクを含む,テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
XiaohongshuとTwitterのデータセットに対する2種類のダウンストリームタスクによる大規模な実験は、我々のアプローチが従来の強力なベースライン手法よりも大幅に改善されていることを証明している。
関連論文リスト
- Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - A Federated Approach to Predicting Emojis in Hindi Tweets [1.979158763744267]
我々はヒンディー語で絵文字予測のために、新しい18ドルのツイート(25ドルのユニークなツイートから追加)のデータセットを導入しました。
本稿では,モデル性能とユーザプライバシのバランスをとることを目的とした,連合学習アルゴリズムCausalFedGSDの修正を提案する。
論文 参考訳(メタデータ) (2022-11-11T18:37:33Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Emoji-aware Co-attention Network with EmoGraph2vec Model for Sentiment
Anaylsis [9.447106020795292]
我々はEmoGraph2vecと呼ばれる絵文字表現を学習し、絵文字対応のコアテンションネットワークを設計する手法を提案する。
我々のモデルは、テキストと絵文字を組み込むコアテンション機構を設計し、圧縮と励起ブロックを畳み込みニューラルネットワークに統合する。
実験結果から,提案モデルは,ベンチマークデータセットの感情分析において,いくつかのベースラインを上回り得ることが示された。
論文 参考訳(メタデータ) (2021-10-27T08:01:10Z) - GraphFormers: GNN-nested Transformers for Representation Learning on
Textual Graph [53.70520466556453]
階層的にGNNコンポーネントを言語モデルのトランスフォーマーブロックと一緒にネストするGraphFormerを提案する。
提案したアーキテクチャでは、テキストエンコーディングとグラフ集約を反復的なワークフローに融合する。
さらに、プログレッシブ・ラーニング・ストラテジーを導入し、そのモデルが操作されたデータと元のデータに基づいて連続的に訓練され、グラフ上の情報を統合する能力を強化する。
論文 参考訳(メタデータ) (2021-05-06T12:20:41Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - A `Sourceful' Twist: Emoji Prediction Based on Sentiment, Hashtags and
Application Source [1.6818451361240172]
モデルが関係する感情を理解し、テキストに最適な絵文字を予測するのを助けるためにTwitterの機能を使用することの重要性を紹介します。
データ分析とニューラルネットワークモデルのパフォーマンス評価は、ハッシュタグとアプリケーションソースを特徴として使用することで、異なる情報をエンコードすることができ、絵文字の予測に有効であることを示している。
論文 参考訳(メタデータ) (2021-03-14T03:05:04Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。