論文の概要: HashSet -- A Dataset For Hashtag Segmentation
- arxiv url: http://arxiv.org/abs/2201.06741v1
- Date: Tue, 18 Jan 2022 04:40:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-20 01:24:51.305793
- Title: HashSet -- A Dataset For Hashtag Segmentation
- Title(参考訳): HashSet - ハッシュタグセグメンテーションのためのデータセット
- Authors: Prashant Kodali, Akshala Bhatnagar, Naman Ahuja, Manish Shrivastava,
Ponnurangam Kumaraguru
- Abstract要約: モデルパフォーマンスは、より広範囲のハッシュタグで評価されるべきである、と我々は主張する。
我々は、a) 1.9kのマニュアルアノテーション付きデータセット、b) 3.3Mの緩やかな教師付きデータセットからなるデータセットであるHashSetを提案する。
HashtagのSOTAモデルの性能は,提案したデータセット上で大幅に低下することを示す。
- 参考スコア(独自算出の注目度): 19.016545782774003
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hashtag segmentation is the task of breaking a hashtag into its constituent
tokens. Hashtags often encode the essence of user-generated posts, along with
information like topic and sentiment, which are useful in downstream tasks.
Hashtags prioritize brevity and are written in unique ways -- transliterating
and mixing languages, spelling variations, creative named entities. Benchmark
datasets used for the hashtag segmentation task -- STAN, BOUN -- are small in
size and extracted from a single set of tweets. However, datasets should
reflect the variations in writing styles of hashtags and also account for
domain and language specificity, failing which the results will misrepresent
model performance. We argue that model performance should be assessed on a
wider variety of hashtags, and datasets should be carefully curated. To this
end, we propose HashSet, a dataset comprising of: a) 1.9k manually annotated
dataset; b) 3.3M loosely supervised dataset. HashSet dataset is sampled from a
different set of tweets when compared to existing datasets and provides an
alternate distribution of hashtags to build and validate hashtag segmentation
models. We show that the performance of SOTA models for Hashtag Segmentation
drops substantially on proposed dataset, indicating that the proposed dataset
provides an alternate set of hashtags to train and assess models.
- Abstract(参考訳): ハッシュタグセグメンテーションは、ハッシュタグを構成トークンに分割するタスクである。
ハッシュタグは、ユーザー生成の投稿の本質と、下流のタスクで役立つトピックや感情といった情報をエンコードすることが多い。
ハッシュタグは簡潔さを優先し、言語を音訳して混合し、バリエーションをスペルし、創造的な名前を持つエンティティを記述している。ハッシュタグセグメンテーションタスク(STAN、BOUN)に使用されるベンチマークデータセットは小さく、単一のツイートから抽出される。
しかし、データセットはハッシュタグの書き方の違いを反映し、ドメインや言語の特異性も考慮しなければならない。
モデルパフォーマンスはより広範なハッシュタグで評価されるべきであり、データセットは慎重にキュレートされるべきである。
この目的のために、以下からなるデータセットであるHashSetを提案する。
a) 手動で注釈付きデータセット1.9k
b) 3.3M 緩やかな教師付きデータセット。
hashsetデータセットは、既存のデータセットと比較して異なるツイートセットからサンプリングされ、ハッシュタグセグメンテーションモデルを構築し検証するためのハッシュタグの代替ディストリビューションを提供する。
ハッシュタグセグメンテーションのためのSOTAモデルの性能は,提案したデータセットに実質的に低下し,提案データセットがモデルのトレーニングと評価のための代替ハッシュタグセットを提供することを示す。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - Diffusion Models as Data Mining Tools [87.77999285241219]
本稿では、画像合成のために訓練された生成モデルを視覚データマイニングのツールとして利用する方法について述べる。
特定のデータセットから画像を合成するために条件拡散モデルを微調整した後、これらのモデルを用いて典型性尺度を定義することができることを示す。
この尺度は、地理的位置、タイムスタンプ、セマンティックラベル、さらには病気の存在など、異なるデータラベルに対する典型的な視覚的要素がどのように存在するかを評価する。
論文 参考訳(メタデータ) (2024-07-20T17:14:31Z) - RIGHT: Retrieval-augmented Generation for Mainstream Hashtag
Recommendation [76.24205422163169]
我々はRIGHT(RetrIeval-augmented Generative Mainstream HashTag Recommender)を提案する。
RIGHTは3つのコンポーネントから構成される: 1) 検索者は、ツイートハッシュタグセット全体から関連するハッシュタグを検索する; 2) セレクタは、グローバル信号を導入して、メインストリームの識別を強化する; 3) ジェネレータは入力されたつぶやきと選択されたハッシュタグを組み込んで、目的のハッシュタグを直接生成する。
さらに,RIGHTを大規模言語モデルに統合することで,ChatGPTの性能を10%以上向上させることができる。
論文 参考訳(メタデータ) (2023-12-16T14:47:03Z) - #REVAL: a semantic evaluation framework for hashtag recommendation [6.746400031322727]
本稿では,ハッシュタグレコメンデーションのための新しいセマンティックアセスメントフレームワーク#REvalを提案する。
#REvalにはBERTagと呼ばれる内部モジュールが含まれており、自動的にハッシュタグの埋め込みを学習する。
大規模な3つのデータセットを用いた実験の結果,#Revalはハッシュタグ推薦評価に有意義なハッシュタグシノニムを付与した。
論文 参考訳(メタデータ) (2023-05-24T07:10:56Z) - Hashtag-Guided Low-Resource Tweet Classification [31.810562621519804]
ハッシュタグ誘導型つぶやき分類モデル(HashTation)を提案する。
HashTationは、入力ツイートの有意義なハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供する。
実験によると、HashTationは7つの低リソースのつぶやき分類タスクで大幅に改善されている。
論文 参考訳(メタデータ) (2023-02-20T18:21:02Z) - Detection Hub: Unifying Object Detection Datasets via Query Adaptation
on Language Embedding [137.3719377780593]
新しいデザイン(De Detection Hubという名前)は、データセット認識とカテゴリ整列である。
データセットの不整合を緩和し、検出器が複数のデータセットをまたいで学習するための一貫性のあるガイダンスを提供する。
データセット間のカテゴリは、ワンホットなカテゴリ表現を単語埋め込みに置き換えることで、意味的に統一された空間に整列される。
論文 参考訳(メタデータ) (2022-06-07T17:59:44Z) - Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation [69.73215951112452]
ハッシュタグは、原文の様々な断片的な部分に由来する可能性のあるトークンまたはフレーズによって形成される。
本稿では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
中国語のWeiboと英語のTwitterから新たに収集した2つの大規模ハッシュタグ生成データセットを紹介する。
論文 参考訳(メタデータ) (2021-06-06T15:13:58Z) - On Identifying Hashtags in Disaster Twitter Data [55.17975121160699]
我々は,行動可能な情報をフィルタリングするのに有用なハッシュタグを付加した災害関連ツイートのユニークなデータセットを構築した。
このデータセットを用いて,マルチタスク学習フレームワークにおける長期記憶モデルについて検討する。
最高のパフォーマンスモデルでは、F1スコアは92.22%に達する。
論文 参考訳(メタデータ) (2020-01-05T22:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。