論文の概要: A Federated Approach to Predicting Emojis in Hindi Tweets
- arxiv url: http://arxiv.org/abs/2211.06401v1
- Date: Fri, 11 Nov 2022 18:37:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:29:23.686247
- Title: A Federated Approach to Predicting Emojis in Hindi Tweets
- Title(参考訳): ヒンディー語ツイートにおける絵文字予測へのフェデレートアプローチ
- Authors: Deep Gandhi and Jash Mehta and Nirali Parekh and Karan Waghela and
Lynette D'Mello and Zeerak Talat
- Abstract要約: 我々はヒンディー語で絵文字予測のために、新しい18ドルのツイート(25ドルのユニークなツイートから追加)のデータセットを導入しました。
本稿では,モデル性能とユーザプライバシのバランスをとることを目的とした,連合学習アルゴリズムCausalFedGSDの修正を提案する。
- 参考スコア(独自算出の注目度): 1.979158763744267
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The use of emojis affords a visual modality to, often private, textual
communication. The task of predicting emojis however provides a challenge for
machine learning as emoji use tends to cluster into the frequently used and the
rarely used emojis. Much of the machine learning research on emoji use has
focused on high resource languages and has conceptualised the task of
predicting emojis around traditional server-side machine learning approaches.
However, traditional machine learning approaches for private communication can
introduce privacy concerns, as these approaches require all data to be
transmitted to a central storage. In this paper, we seek to address the dual
concerns of emphasising high resource languages for emoji prediction and
risking the privacy of people's data. We introduce a new dataset of $118$k
tweets (augmented from $25$k unique tweets) for emoji prediction in Hindi, and
propose a modification to the federated learning algorithm, CausalFedGSD, which
aims to strike a balance between model performance and user privacy. We show
that our approach obtains comparative scores with more complex centralised
models while reducing the amount of data required to optimise the models and
minimising risks to user privacy.
- Abstract(参考訳): 絵文字の使用は、しばしばプライベートなテキストコミュニケーションに視覚的なモダリティを与える。
しかし、絵文字を予測するタスクは、頻繁に使われる絵文字とめったに使われない絵文字に群がる傾向があるため、機械学習にとって課題となる。
絵文字使用に関する機械学習研究の多くは、高リソース言語に重点を置いており、従来のサーバーサイド機械学習アプローチに関する絵文字予測のタスクの概念化を行っている。
しかしながら、従来のプライベート通信のための機械学習アプローチは、すべてのデータを中央ストレージに送信する必要があるため、プライバシー上の懸念をもたらす可能性がある。
本稿では,絵文字予測のための高資源言語を強調し,人々のデータのプライバシーを危険にさらすという2つの懸念に対処する。
私たちはヒンディー語で絵文字の予測を行うために118ドル(25ドル)のツイート(ユニークツイートから推測される)の新しいデータセットを導入し、モデルのパフォーマンスとユーザーのプライバシーのバランスを取ることを目的としたfederated learningアルゴリズムであるcausalfedgsdの修正を提案する。
提案手法では,モデル最適化に必要なデータ量を削減し,ユーザプライバシのリスクを最小限に抑えるとともに,より複雑な集中型モデルによる比較スコアを得る。
関連論文リスト
- Unleashing the Power of Emojis in Texts via Self-supervised Graph Pre-Training [22.452853652070413]
ソーシャルメディアデータマイニングにおける絵文字のパワーを解放します。
テキストと絵文字の共モデリングのためのグラフ事前学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-22T18:29:10Z) - Semantics Preserving Emoji Recommendation with Large Language Models [47.94761630160614]
既存の絵文字レコメンデーションメソッドは、ユーザーが元のテキストで選択した正確な絵文字にマッチする能力に基づいて、主に評価される。
本稿では,ユーザのテキストとのセマンティックな整合性を維持する絵文字を推薦するモデルの能力を計測する,絵文字推薦のための新しいセマンティックス保存フレームワークを提案する。
論文 参考訳(メタデータ) (2024-09-16T22:27:46Z) - EmojiLM: Modeling the New Emoji Language [44.23076273155259]
我々は,大規模言語モデルからテキスト絵文字並列コーパスであるText2Emojiを開発した。
並列コーパスに基づいて,テキスト・絵文字双方向翻訳に特化したシーケンス・ツー・シーケンス・モデルである絵文字LMを蒸留する。
提案モデルでは,強いベースラインを上回り,平行コーパスは絵文字関連下流タスクに有効である。
論文 参考訳(メタデータ) (2023-11-03T07:06:51Z) - Emoji Prediction in Tweets using BERT [0.0]
本稿では,広く使われている事前学習型言語モデルであるBERTを用いた絵文字予測のためのトランスフォーマーに基づく手法を提案する。
我々はBERTをテキストと絵文字の両方を含む大量のテキスト(つぶやき)のコーパスで微調整し、与えられたテキストに対して最も適切な絵文字を予測する。
実験の結果,提案手法は,75%以上の精度で絵文字の予測において,最先端のモデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-07-05T06:38:52Z) - Emojich -- zero-shot emoji generation using Russian language: a
technical report [52.77024349608834]
エモジッチ(Emojich)は、ロシア語の字幕を条件として絵文字を生成するテキスト・画像ニューラルネットワークである。
我々は,事前訓練された大型モデルruDALL-E Malevich(XL) 1.3Bパラメータの微調整段階における一般化能力を維持することを目的としている。
論文 参考訳(メタデータ) (2021-12-04T23:37:32Z) - Learning Language and Multimodal Privacy-Preserving Markers of Mood from
Mobile Data [74.60507696087966]
精神状態は、先進医療に共通する国でも診断されていない。
人間の行動を監視するための有望なデータソースのひとつは、日々のスマートフォンの利用だ。
本研究では,自殺行動のリスクが高い青少年集団の移動行動のデータセットを用いて,日常生活の行動マーカーについて検討した。
論文 参考訳(メタデータ) (2021-06-24T17:46:03Z) - Black or White but never neutral: How readers perceive identity from
yellow or skin-toned emoji [90.14874935843544]
近年の研究は、ソーシャルメディア上でのアイデンティティ表現と絵文字利用の関係を確立した。
この研究は、言語と同様に、読者がそのような自己表現の行為に敏感かどうかを問うもので、著者のアイデンティティを理解するために使用する。
論文 参考訳(メタデータ) (2021-05-12T18:23:51Z) - Semantic Journeys: Quantifying Change in Emoji Meaning from 2012-2018 [66.28665205489845]
絵文字のセマンティクスが時間とともにどのように変化するかに関する最初の縦断的研究を行い、計算言語学から6年間のtwitterデータに適用した。
絵文字のセマンティックな発達において5つのパターンを識別し、抽象的な絵文字がより少ないほど意味的変化を起こす可能性が高くなることを示す。
絵文字とセマンティクスに関する今後の作業を支援するために、私たちは、絵文字のセマンティックな変化を調べるために誰でも使用できるウェブベースのインターフェイスとともに、データを公開します。
論文 参考訳(メタデータ) (2021-05-03T13:35:10Z) - A `Sourceful' Twist: Emoji Prediction Based on Sentiment, Hashtags and
Application Source [1.6818451361240172]
モデルが関係する感情を理解し、テキストに最適な絵文字を予測するのを助けるためにTwitterの機能を使用することの重要性を紹介します。
データ分析とニューラルネットワークモデルのパフォーマンス評価は、ハッシュタグとアプリケーションソースを特徴として使用することで、異なる情報をエンコードすることができ、絵文字の予測に有効であることを示している。
論文 参考訳(メタデータ) (2021-03-14T03:05:04Z) - Emoji Prediction: Extensions and Benchmarking [30.642840676899734]
絵文字予測タスクは、テキストに関連付けられた適切な絵文字セットを予測することを目的としている。
我々は、絵文字予測タスクの既存の設定を拡張し、よりリッチな絵文字セットを含め、複数ラベルの分類を可能にする。
トランスフォーマーネットワークに基づくマルチクラス・マルチラベル絵文字予測のための新しいモデルを提案する。
論文 参考訳(メタデータ) (2020-07-14T22:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。