論文の概要: Hashtag-Guided Low-Resource Tweet Classification
- arxiv url: http://arxiv.org/abs/2302.10143v1
- Date: Mon, 20 Feb 2023 18:21:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 14:37:42.797947
- Title: Hashtag-Guided Low-Resource Tweet Classification
- Title(参考訳): ハッシュタグ誘導型低リソースツイート分類
- Authors: Shizhe Diao, Sedrick Scott Keh, Liangming Pan, Zhiliang Tian, Yan
Song, Tong Zhang
- Abstract要約: ハッシュタグ誘導型つぶやき分類モデル(HashTation)を提案する。
HashTationは、入力ツイートの有意義なハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供する。
実験によると、HashTationは7つの低リソースのつぶやき分類タスクで大幅に改善されている。
- 参考スコア(独自算出の注目度): 31.810562621519804
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Social media classification tasks (e.g., tweet sentiment analysis, tweet
stance detection) are challenging because social media posts are typically
short, informal, and ambiguous. Thus, training on tweets is challenging and
demands large-scale human-annotated labels, which are time-consuming and costly
to obtain. In this paper, we find that providing hashtags to social media
tweets can help alleviate this issue because hashtags can enrich short and
ambiguous tweets in terms of various information, such as topic, sentiment, and
stance. This motivates us to propose a novel Hashtag-guided Tweet
Classification model (HashTation), which automatically generates meaningful
hashtags for the input tweet to provide useful auxiliary signals for tweet
classification. To generate high-quality and insightful hashtags, our hashtag
generation model retrieves and encodes the post-level and entity-level
information across the whole corpus. Experiments show that HashTation achieves
significant improvements on seven low-resource tweet classification tasks, in
which only a limited amount of training data is provided, showing that
automatically enriching tweets with model-generated hashtags could
significantly reduce the demand for large-scale human-labeled data. Further
analysis demonstrates that HashTation is able to generate high-quality hashtags
that are consistent with the tweets and their labels. The code is available at
https://github.com/shizhediao/HashTation.
- Abstract(参考訳): ソーシャルメディアの分類タスク(例えば、ツイートの感情分析、ツイートのスタンス検出)は、ソーシャルメディアの投稿が短く、非公式で曖昧であるために難しい。
したがって、ツイートのトレーニングは困難であり、時間とコストのかかる大規模なラベルを必要とする。
本稿では,ソーシャルメディアのつぶやきにハッシュタグを提供することによって,話題や感情,スタンスといったさまざまな情報の観点から,ハッシュタグが短く曖昧なツイートを豊かにすることができるため,この問題を軽減することができる。
これにより、入力ツイートに対して意味のあるハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供するHashtag-guided Tweet Classification Model (HashTation)を提案する。
高品質で洞察に富んだハッシュタグを生成するために、ハッシュタグ生成モデルは、コーパス全体にわたってポストレベルおよびエンティティレベルの情報を検索およびエンコードします。
実験によれば、ハッシュ化は、限られた量のトレーニングデータしか提供されない7つの低リソースなツイート分類タスクにおいて、大幅な改善を達成している。
さらに分析すると、ハッシュ化はツイートとそのラベルと一致する高品質なハッシュタグを生成することができる。
コードはhttps://github.com/shizhediao/hashtationで入手できる。
関連論文リスト
- RIGHT: Retrieval-augmented Generation for Mainstream Hashtag
Recommendation [76.24205422163169]
我々はRIGHT(RetrIeval-augmented Generative Mainstream HashTag Recommender)を提案する。
RIGHTは3つのコンポーネントから構成される: 1) 検索者は、ツイートハッシュタグセット全体から関連するハッシュタグを検索する; 2) セレクタは、グローバル信号を導入して、メインストリームの識別を強化する; 3) ジェネレータは入力されたつぶやきと選択されたハッシュタグを組み込んで、目的のハッシュタグを直接生成する。
さらに,RIGHTを大規模言語モデルに統合することで,ChatGPTの性能を10%以上向上させることができる。
論文 参考訳(メタデータ) (2023-12-16T14:47:03Z) - Analyzing Trendy Twitter Hashtags in the 2022 French Election [0.0]
本稿では,機械学習タスクのユーザレベル機能としてセマンティックネットワークを利用する手法を提案する。
われわれは、2022年のフランス大統領選挙に関連する370万ツイートのコーパスから、Twitterのハッシュタグ1037のセマンティックネットワークを用いて実験を行った。
我々のセマンティック機能は回帰とよく似ており、ほとんどの感情は0.5以上のR2$を持つ。
論文 参考訳(メタデータ) (2023-10-11T15:17:55Z) - Manipulating Twitter Through Deletions [64.33261764633504]
Twitter上でのインフルエンスキャンペーンの研究は、公開APIを通じて得られたツイートから悪意のあるアクティビティを識別することに大きく依存している。
ここでは,1100万以上のアカウントによる10億以上の削除を含む,異常な削除パターンを網羅的かつ大規模に分析する。
少数のアカウントが毎日大量のツイートを削除していることがわかった。
まず、ツイートのボリューム制限が回避され、特定のアカウントが毎日2600万以上のツイートをネットワークに流すことができる。
第二に、調整されたアカウントのネットワークは、繰り返しのいいね!や、最終的に削除されるコンテンツとは違って、ランキングアルゴリズムを操作できる。
論文 参考訳(メタデータ) (2022-03-25T20:07:08Z) - HashSet -- A Dataset For Hashtag Segmentation [19.016545782774003]
モデルパフォーマンスは、より広範囲のハッシュタグで評価されるべきである、と我々は主張する。
我々は、a) 1.9kのマニュアルアノテーション付きデータセット、b) 3.3Mの緩やかな教師付きデータセットからなるデータセットであるHashSetを提案する。
HashtagのSOTAモデルの性能は,提案したデータセット上で大幅に低下することを示す。
論文 参考訳(メタデータ) (2022-01-18T04:40:45Z) - Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation [69.73215951112452]
ハッシュタグは、原文の様々な断片的な部分に由来する可能性のあるトークンまたはフレーズによって形成される。
本稿では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
中国語のWeiboと英語のTwitterから新たに収集した2つの大規模ハッシュタグ生成データセットを紹介する。
論文 参考訳(メタデータ) (2021-06-06T15:13:58Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Hit ratio: An Evaluation Metric for Hashtag Recommendation [6.746400031322727]
我々はハッシュタグ推薦のためのヒット比と呼ばれる新しい指標を提案する。
ハッシュタグレコメンデーションの分野での研究の多くは、ヒット率、精度、リコール、F1スコアといった古典的な指標を使用してきた。
ヒット率と古典的評価指標を比較すると,その限界が明らかになる。
論文 参考訳(メタデータ) (2020-10-03T02:07:41Z) - On Identifying Hashtags in Disaster Twitter Data [55.17975121160699]
我々は,行動可能な情報をフィルタリングするのに有用なハッシュタグを付加した災害関連ツイートのユニークなデータセットを構築した。
このデータセットを用いて,マルチタスク学習フレームワークにおける長期記憶モデルについて検討する。
最高のパフォーマンスモデルでは、F1スコアは92.22%に達する。
論文 参考訳(メタデータ) (2020-01-05T22:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。