論文の概要: Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation
- arxiv url: http://arxiv.org/abs/2106.03151v1
- Date: Sun, 6 Jun 2021 15:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-08 18:37:52.458773
- Title: Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation
- Title(参考訳): 参加と選択:マイクロブログハッシュタグ生成のためのセグメント注目に基づく選択機構
- Authors: Qianren Mao, Xi Li, Hao Peng, Bang Liu, Shu Guo, Jianxin Li, Lihong
Wang, Philip S. Yu
- Abstract要約: ハッシュタグは、原文の様々な断片的な部分に由来する可能性のあるトークンまたはフレーズによって形成される。
本稿では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
中国語のWeiboと英語のTwitterから新たに収集した2つの大規模ハッシュタグ生成データセットを紹介する。
- 参考スコア(独自算出の注目度): 69.73215951112452
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic microblog hashtag generation can help us better and faster
understand or process the critical content of microblog posts.
Conventional sequence-to-sequence generation methods can produce phrase-level
hashtags and have achieved remarkable performance on this task. However, they
are incapable of filtering out secondary information and not good at capturing
the discontinuous semantics among crucial tokens.
A hashtag is formed by tokens or phrases that may originate from various
fragmentary segments of the original text.
In this work, we propose an end-to-end Transformer-based generation model
which consists of three phases: encoding, segments-selection, and decoding. The
model transforms discontinuous semantic segments from the source text into a
sequence of hashtags.
Specifically, we introduce a novel Segments Selection Mechanism (SSM) for
Transformer to obtain segmental representations tailored to phrase-level
hashtag generation.
Besides, we introduce two large-scale hashtag generation datasets, which are
newly collected from Chinese Weibo and English Twitter.
Extensive evaluations on the two datasets reveal our approach's superiority
with significant improvements to extraction and generation baselines. The code
and datasets are available at \url{https://github.com/OpenSUM/HashtagGen}.
- Abstract(参考訳): 自動マイクロブログハッシュタグ生成は、マイクロブログポストの臨界内容の理解や処理を、より高速に行うのに役立つ。
従来のシーケンス・ツー・シーケンス生成手法はフレーズレベルのハッシュタグを生成でき、このタスクで顕著なパフォーマンスを実現した。
しかし、セカンダリ情報をフィルタリングすることはできず、重要なトークン間の不連続なセマンティクスを捉えることができない。
ハッシュタグは、原文の様々な断片的な部分に由来するトークンやフレーズによって形成される。
本研究では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
モデルは、不連続なセマンティックセグメントをソーステキストからハッシュタグのシーケンスに変換する。
具体的には、フレーズレベルのハッシュタグ生成に適したセグメント表現を得るために、Transformer用の新しいセグメント選択機構(SSM)を導入する。
また,中国のweiboと英語twitterから新たに収集した2つのハッシュタグ生成データセットを紹介する。
2つのデータセットの大規模な評価は、抽出と生成ベースラインを大幅に改善したアプローチの優位性を明らかにする。
コードとデータセットは \url{https://github.com/OpenSUM/HashtagGen} で公開されている。
関連論文リスト
- Scribbles for All: Benchmarking Scribble Supervised Segmentation Across Datasets [51.74296438621836]
Scribbles for Allは、スクリブルラベルに基づいて訓練されたセマンティックセグメンテーションのためのラベルおよびトレーニングデータ生成アルゴリズムである。
弱い監督の源泉としてのスクリブルの主な制限は、スクリブルセグメンテーションのための挑戦的なデータセットの欠如である。
Scribbles for Allは、いくつかの人気のあるセグメンテーションデータセットのスクリブルラベルを提供し、密集したアノテーションを持つデータセットのスクリブルラベルを自動的に生成するアルゴリズムを提供する。
論文 参考訳(メタデータ) (2024-08-22T15:29:08Z) - RIGHT: Retrieval-augmented Generation for Mainstream Hashtag
Recommendation [76.24205422163169]
我々はRIGHT(RetrIeval-augmented Generative Mainstream HashTag Recommender)を提案する。
RIGHTは3つのコンポーネントから構成される: 1) 検索者は、ツイートハッシュタグセット全体から関連するハッシュタグを検索する; 2) セレクタは、グローバル信号を導入して、メインストリームの識別を強化する; 3) ジェネレータは入力されたつぶやきと選択されたハッシュタグを組み込んで、目的のハッシュタグを直接生成する。
さらに,RIGHTを大規模言語モデルに統合することで,ChatGPTの性能を10%以上向上させることができる。
論文 参考訳(メタデータ) (2023-12-16T14:47:03Z) - Copy Is All You Need [66.00852205068327]
既存のテキストコレクションからテキストセグメントを段階的にコピーするテキスト生成を定式化する。
提案手法は, 自動評価と人的評価の両方により, より優れた生成品質を実現する。
当社のアプローチでは,より大規模なテキストコレクションにスケールアップすることで,さらなるパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-07-13T05:03:26Z) - Hashtag-Guided Low-Resource Tweet Classification [31.810562621519804]
ハッシュタグ誘導型つぶやき分類モデル(HashTation)を提案する。
HashTationは、入力ツイートの有意義なハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供する。
実験によると、HashTationは7つの低リソースのつぶやき分類タスクで大幅に改善されている。
論文 参考訳(メタデータ) (2023-02-20T18:21:02Z) - HashSet -- A Dataset For Hashtag Segmentation [19.016545782774003]
モデルパフォーマンスは、より広範囲のハッシュタグで評価されるべきである、と我々は主張する。
我々は、a) 1.9kのマニュアルアノテーション付きデータセット、b) 3.3Mの緩やかな教師付きデータセットからなるデータセットであるHashSetを提案する。
HashtagのSOTAモデルの性能は,提案したデータセット上で大幅に低下することを示す。
論文 参考訳(メタデータ) (2022-01-18T04:40:45Z) - Towards Document-Level Paraphrase Generation with Sentence Rewriting and
Reordering [88.08581016329398]
文書レベルのパラフレーズ生成のためのCoRPG(Coherence Relation Guided Paraphrase Generation)を提案する。
グラフGRUを用いて、コヒーレンス関係グラフを符号化し、各文のコヒーレンス対応表現を得る。
我々のモデルは、より多様性とセマンティックな保存を伴う文書パラフレーズを生成することができる。
論文 参考訳(メタデータ) (2021-09-15T05:53:40Z) - News Meets Microblog: Hashtag Annotation via Retriever-Generator [15.558878116343585]
マイクロブログ投稿の前に公開されたニュース記事を利用して、Retriever-Generatorフレームワークに従ってハッシュタグを生成することを提案します。
英語のTwitterデータセットの実験は、ニュース記事を利用してハッシュタグを生成する優れたパフォーマンスと大きな利点を示しています。
論文 参考訳(メタデータ) (2021-04-18T05:28:13Z) - MART: Memory-Augmented Recurrent Transformer for Coherent Video
Paragraph Captioning [128.36951818335046]
MART(Memory-Augmented Recurrent Transformer)と呼ばれる新しい手法を提案する。
MARTはメモリモジュールを使用してトランスフォーマーアーキテクチャを拡張する。
MARTはベースライン法よりもコヒーレントで繰り返しない段落を生成する。
論文 参考訳(メタデータ) (2020-05-11T20:01:41Z) - Keyphrase Extraction with Span-based Feature Representations [13.790461555410747]
キーフレーズは、文書を特徴付ける意味メタデータを提供することができる。
キーフレーズ抽出のための3つのアプローチ: (i) 従来の2段階ランキング法、 (ii) シーケンスラベリング、 (iii) ニューラルネットワークを用いた生成。
本稿では,すべてのコンテンツトークンから直接,キーフレーズのスパン的特徴表現を抽出する新規スパンキーフレーズ抽出モデルを提案する。
論文 参考訳(メタデータ) (2020-02-13T09:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。