論文の概要: Decay No More: A Persistent Twitter Dataset for Learning Social Meaning
- arxiv url: http://arxiv.org/abs/2204.04611v1
- Date: Sun, 10 Apr 2022 06:07:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-12 13:50:36.365766
- Title: Decay No More: A Persistent Twitter Dataset for Learning Social Meaning
- Title(参考訳): Decay No More: ソーシャルな意味を学ぶための永続的なTwitterデータセット
- Authors: Chiyu Zhang, Muhammad Abdul-Mageed, El Moatez Billah Nagoudi
- Abstract要約: 社会意味のための英語Twitterデータセット(PTSM)を提案する。
PTSMは17ドルのソーシャル意味データセットと10ドルのタスクカテゴリで構成されている。
我々は2つのSOTA事前訓練言語モデルを用いて実験を行い、PTSMが実際のツイートをパラフレーズに置換し、性能損失を極端に抑えることを示した。
- 参考スコア(独自算出の注目度): 10.227026799075215
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: With the proliferation of social media, many studies resort to social media
to construct datasets for developing social meaning understanding systems. For
the popular case of Twitter, most researchers distribute tweet IDs without the
actual text contents due to the data distribution policy of the platform. One
issue is that the posts become increasingly inaccessible over time, which leads
to unfair comparisons and a temporal bias in social media research. To
alleviate this challenge of data decay, we leverage a paraphrase model to
propose a new persistent English Twitter dataset for social meaning (PTSM).
PTSM consists of $17$ social meaning datasets in $10$ categories of tasks. We
experiment with two SOTA pre-trained language models and show that our PTSM can
substitute the actual tweets with paraphrases with marginal performance loss.
- Abstract(参考訳): ソーシャルメディアの普及に伴い、多くの研究がソーシャルメディアを利用して、社会的意味理解システムを開発するためのデータセットを構築している。
Twitterの一般的な場合、ほとんどの研究者はプラットフォームのデータ配信ポリシーのため、実際のテキスト内容なしでツイートIDを配布している。
問題のひとつは、ポストが時間とともにアクセス不能になり、不公平な比較とソーシャルメディア研究の時間的偏見につながることだ。
データ崩壊のこの課題を軽減するために、パラフレーズモデルを用いて、新しい社会意味のための英語Twitterデータセット(PTSM)を提案する。
PTSMは17ドルのソーシャル意味データセットと10ドルのタスクカテゴリで構成されている。
我々は2つのSOTA事前訓練言語モデルを用いて実験を行い、PTSMが実際のツイートをパラフレーズに置き換え、性能損失を極端に抑えることを示した。
関連論文リスト
- SS-GEN: A Social Story Generation Framework with Large Language Models [87.11067593512716]
自閉症スペクトラム障害(ASD)を持つ子供たちは、しばしば社会的状況を誤解し、日々のルーチンに参加するのに苦労する。
社会物語は伝統的にこれらの課題に対処するために厳格な制約の下で心理学の専門家によって作られた。
幅広い範囲でリアルタイムでソーシャルストーリーを生成するフレームワークである textbfSS-GEN を提案する。
論文 参考訳(メタデータ) (2024-06-22T00:14:48Z) - CrisisMatch: Semi-Supervised Few-Shot Learning for Fine-Grained Disaster
Tweet Classification [51.58605842457186]
半教師付き, 少数ショットの学習環境下で, 微粒な災害ツイート分類モデルを提案する。
私たちのモデルであるCrisisMatchは、ラベルなしデータと大量のラベルなしデータを用いて、ツイートを関心の細かいクラスに効果的に分類する。
論文 参考訳(メタデータ) (2023-10-23T07:01:09Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - TwHIN-BERT: A Socially-Enriched Pre-trained Language Model for
Multilingual Tweet Representations at Twitter [31.698196219228024]
TwHIN-BERTはTwitterで制作された多言語言語モデルである。
私たちのモデルは、100以上の異なる言語をカバーする70億のツイートで訓練されています。
我々は,多言語ソーシャルレコメンデーションと意味理解タスクにおけるモデルの評価を行った。
論文 参考訳(メタデータ) (2022-09-15T19:01:21Z) - Predicting Hate Intensity of Twitter Conversation Threads [26.190359413890537]
DRAGNET++は、将来、ツイートが返信チェーンを通じてもたらす憎悪の強さを予測することを目的としている。
ツイートスレッドのセマンティックな構造と伝播構造を利用して、続く各ツイートにおけるヘイトインテンシティの低下につながるコンテキスト情報を最大化する。
DRAGNET++は最先端のすべてのベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2022-06-16T18:51:36Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - The emojification of sentiment on social media: Collection and analysis
of a longitudinal Twitter sentiment dataset [5.528896840956628]
TM-Sentiは、Twitterの感情データセットを大規模に管理し、ツイート数は1億1400万を超えている。
我々は,大規模なエモティコンと絵文字に基づくラベル付き感情分析データセットを組み立てるための方法論を記述し,評価する。
私たちの分析では絵文字のエモティコンへの利用の増加など、興味深い時間的変化が強調されている。
論文 参考訳(メタデータ) (2021-08-31T14:54:46Z) - Named Entity Recognition for Social Media Texts with Semantic
Augmentation [70.44281443975554]
名前付きエンティティ認識のための既存のアプローチは、短いテキストと非公式テキストで実行される場合、データ空間の問題に悩まされる。
そこで我々は,NER によるソーシャルメディアテキストに対するニューラルベースアプローチを提案し,ローカルテキストと拡張セマンティクスの両方を考慮に入れた。
論文 参考訳(メタデータ) (2020-10-29T10:06:46Z) - Storywrangler: A massive exploratorium for sociolinguistic, cultural,
socioeconomic, and political timelines using Twitter [0.9485862597874625]
リアルタイムでは、ソーシャルメディアのデータは世界の出来事、大衆文化、そして何百万人もの一般人の日々の会話を、ほとんど慣習化されず記録されていない規模で強く刻み込む。
ここでは、2008年から2021年までの約1兆1グラムを含む100億以上のツイートの日々のキュレーションを実行するために設計された自然言語処理機器であるStorywranglerについて説明する。
毎日、ツイートを100以上の言語にまたがるユニグラム、ビッグラム、トリグラムに分割します。n-gramの使用頻度を追跡し、単語、ハッシュタグ、ハンドルなどのZipf分布を生成します。
論文 参考訳(メタデータ) (2020-07-25T18:09:22Z) - TIMME: Twitter Ideology-detection via Multi-task Multi-relational
Embedding [26.074367752142198]
我々は、人々のイデオロギーや政治的傾向を予測する問題を解決することを目的としている。
我々は、Twitterデータを用いてそれを推定し、分類問題として定式化する。
論文 参考訳(メタデータ) (2020-06-02T00:00:39Z) - Privacy-Aware Recommender Systems Challenge on Twitter's Home Timeline [47.434392695347924]
ACM RecSysが主催するRecSys 2020 Challengeは、このデータセットを使用してTwitterと提携している。
本稿では,ユーザエンゲージメントを予測しようとする研究者や専門家が直面する課題について述べる。
論文 参考訳(メタデータ) (2020-04-28T23:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。