論文の概要: Text-to-hashtag Generation using Seq2seq Learning
- arxiv url: http://arxiv.org/abs/2102.00904v1
- Date: Mon, 1 Feb 2021 15:28:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 00:49:21.680741
- Title: Text-to-hashtag Generation using Seq2seq Learning
- Title(参考訳): seq2seq学習を用いたテキスト対ハッシュ生成
- Authors: Augusto Camargo, Wesley Carvalho, Felipe Peressim
- Abstract要約: BiLSTMとBERTをベースとしたモデルがブラジルのポルタグスでハッシュタグを生成できるかどうかを検討した。
入力として商品のレビューとタイトルのコーパスを処理し、出力としてハッシュタグを生成しました。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we studied if models based on BiLSTM and BERT can generate
hashtags in Brazilian portuguese that can be used in Ecommerce websites. We
processed a corpus of Ecommerce reviews and titles of products as inputs and we
generated hashtags as outputs. We evaluate the results using four quantitatives
metrics: NIST, BLEU, METEOR and a crowdsourced score. Word Cloud was used as a
qualitative metric. Besides all computer metered metrics (NIST, BLEU and
METEOR) showed bad results, the crowdsourced showed amazing scores. We
concluded that the texts generated by the neural networks are very promising to
be used as hashtags of products in Ecommerce websites [1]. The code for this
work is available on https://github.com/augustocamargo/text-to-hashtag
- Abstract(参考訳): 本論文では、BiLSTMとBERTに基づくモデルがブラジルのポルトガル語でハッシュタグを生成し、Eコマースのウェブサイトで使用できるかどうかを検討した。
我々はEコマースレビューのコーパスと商品のタイトルを入力として処理し、ハッシュタグを出力として生成した。
NIST,BLEU,METEOR,クラウドソーシングスコアの4つの定量値を用いて評価を行った。
Word Cloudは定性メトリックとして使用された。
すべてのコンピュータ測定値(NIST、BLEU、METEOR)が悪い結果を示したのに加えて、クラウドソースは素晴らしいスコアを示した。
我々は、ニューラルネットワークによって生成されたテキストが、Eコマースのウェブサイトで製品のハッシュタグとして使われることを非常に約束していると結論付けた。
この作業のコードはhttps://github.com/augustocamargo/text-to-hashtagで入手できる。
関連論文リスト
- Batching BPE Tokenization Merges [55.2480439325792]
BatchBPEはByte PairアルゴリズムのPython実装である。
ベーシックラップトップ上で高品質なトークンをトレーニングするために使用される。
論文 参考訳(メタデータ) (2024-08-05T09:37:21Z) - RIGHT: Retrieval-augmented Generation for Mainstream Hashtag
Recommendation [76.24205422163169]
我々はRIGHT(RetrIeval-augmented Generative Mainstream HashTag Recommender)を提案する。
RIGHTは3つのコンポーネントから構成される: 1) 検索者は、ツイートハッシュタグセット全体から関連するハッシュタグを検索する; 2) セレクタは、グローバル信号を導入して、メインストリームの識別を強化する; 3) ジェネレータは入力されたつぶやきと選択されたハッシュタグを組み込んで、目的のハッシュタグを直接生成する。
さらに,RIGHTを大規模言語モデルに統合することで,ChatGPTの性能を10%以上向上させることができる。
論文 参考訳(メタデータ) (2023-12-16T14:47:03Z) - Offensive Language Identification in Transliterated and Code-Mixed
Bangla [29.30985521838655]
本稿では,翻訳とコードミキシングによるテキスト中の攻撃的言語識別について検討する。
TB-OLID(TB-OLID)は,5000のコメントを手動で書き起こした,バングラの攻撃的言語データセットである。
我々はTB-OLIDで機械学習モデルを訓練し、微調整を行い、このデータセットで結果を評価する。
論文 参考訳(メタデータ) (2023-11-25T13:27:22Z) - Learning Multiplex Representations on Text-Attributed Graphs with One Language Model Encoder [55.24276913049635]
テキスト分散グラフ上での多重表現学習のための新しいフレームワークMETAGを提案する。
既存の手法とは対照的に、MeTAGは1つのテキストエンコーダを使用して関係性間の共有知識をモデル化する。
学術分野と電子商取引分野の5つのグラフにおいて,9つの下流タスクについて実験を行った。
論文 参考訳(メタデータ) (2023-10-10T14:59:22Z) - Towards Codable Watermarking for Injecting Multi-bits Information to LLMs [86.86436777626959]
大規模言語モデル(LLM)は、流布とリアリズムを増大させるテキストを生成する。
既存の透かし方式はエンコーディング非効率であり、多様な情報エンコーディングニーズに柔軟に対応できない。
テキスト透かしを複数ビットでカスタマイズ可能な情報を運ぶことができるCTWL (Codable Text Watermarking for LLMs) を提案する。
論文 参考訳(メタデータ) (2023-07-29T14:11:15Z) - #REVAL: a semantic evaluation framework for hashtag recommendation [6.746400031322727]
本稿では,ハッシュタグレコメンデーションのための新しいセマンティックアセスメントフレームワーク#REvalを提案する。
#REvalにはBERTagと呼ばれる内部モジュールが含まれており、自動的にハッシュタグの埋め込みを学習する。
大規模な3つのデータセットを用いた実験の結果,#Revalはハッシュタグ推薦評価に有意義なハッシュタグシノニムを付与した。
論文 参考訳(メタデータ) (2023-05-24T07:10:56Z) - T5Score: Discriminative Fine-tuning of Generative Evaluation Metrics [94.69907794006826]
我々は、現在利用可能なデータから、教師なし信号と教師なし信号の両方を用いて、両方の世界のベストを結合するフレームワークを提案する。
このアイデアを,mT5をバックボーンとするトレーニング信号を使用するメトリックであるT5Scoreをトレーニングすることで,運用する。
T5Scoreは、セグメントレベルの既存のトップスコアメトリクスに対して、すべてのデータセットで最高のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-12-12T06:29:04Z) - L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and
BERT Language Models [1.14219428942199]
L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。
GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-04-18T16:49:59Z) - Product Market Demand Analysis Using NLP in Banglish Text with Sentiment
Analysis and Named Entity Recognition [0.0]
ベンガル語話者は約2億2800万人。
消費者はBanglishのテキストでソーシャルメディア上でアイテムを購入し、評価しています。
人々はソーシャルメディアを使って、好みのスマートフォンブランドやモデルを見つけます。
論文 参考訳(メタデータ) (2022-04-04T20:21:31Z) - Attend and Select: A Segment Attention based Selection Mechanism for
Microblog Hashtag Generation [69.73215951112452]
ハッシュタグは、原文の様々な断片的な部分に由来する可能性のあるトークンまたはフレーズによって形成される。
本稿では,エンコーディング,セグメント選択,デコードという3つのフェーズからなるエンドツーエンドのトランスフォーマーベース生成モデルを提案する。
中国語のWeiboと英語のTwitterから新たに収集した2つの大規模ハッシュタグ生成データセットを紹介する。
論文 参考訳(メタデータ) (2021-06-06T15:13:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。