論文の概要: Utilizing Social Media Attributes for Enhanced Keyword Detection: An
IDF-LDA Model Applied to Sina Weibo
- arxiv url: http://arxiv.org/abs/2306.07978v1
- Date: Tue, 30 May 2023 08:35:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 12:20:23.618409
- Title: Utilizing Social Media Attributes for Enhanced Keyword Detection: An
IDF-LDA Model Applied to Sina Weibo
- Title(参考訳): キーワード検出におけるソーシャルメディア属性の活用--sina weiboに適用したidf-ldaモデル
- Authors: Yifei Yue
- Abstract要約: ソーシャルメディアにおけるキーワード検出問題に対処する新しい手法を提案する。
我々のモデルは、逆文書頻度(IDF)と遅延ディリクレ割当(LDA)モデルを組み合わせて、ソーシャルメディアデータの異なる属性に対処する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of social media such as Twitter and Weibo,
detecting keywords from a huge volume of text data streams in real-time has
become a critical problem. The keyword detection problem aims at searching
important information from massive text data to reflect the most important
events or topics. However, social media data usually has unique features: the
documents are usually short, the language is colloquial, and the data is likely
to have significant temporal patterns. Therefore, it could be challenging to
discover critical information from these text streams. In this paper, we
propose a novel method to address the keyword detection problem in social
media. Our model combines the Inverse Document Frequency (IDF) and Latent
Dirichlet Allocation (LDA) models to better cope with the distinct attributes
of social media data, such as the number of likes, comments, and retweets. By
weighting the importance of each document based on these attributes, our method
can effectively detect more representative keywords over time. Comprehensive
experiments conducted under various conditions on Weibo data illustrate that
our approach outperforms the baselines in various evaluation metrics, including
precision and recall for multiple problem settings.
- Abstract(参考訳): twitterやweiboといったソーシャルメディアの急速な発展に伴い、大量のテキストデータストリームからキーワードをリアルタイムで検出することが重要な問題となっている。
キーワード検出問題は、重要なイベントやトピックを反映した大量のテキストデータから重要な情報を検索することを目的としている。
しかしながら、ソーシャルメディアデータは通常、文書は短く、言語は口語であり、データは重要な時間パターンを持つ可能性が高いというユニークな特徴を持っている。
したがって、これらのテキストストリームから重要な情報を見つけることは困難である。
本稿では,ソーシャルメディアにおけるキーワード検出問題に対処する新しい手法を提案する。
我々のモデルは、逆文書頻度(IDF)と遅延ディリクレ割当(LDA)モデルを組み合わせて、いいね!、コメント、リツイートの回数など、ソーシャルメディアデータの異なる属性に対処する。
これらの属性に基づいて各文書の重要性を重み付けすることにより,時間とともにより代表的キーワードを効果的に検出できる。
weiboデータに関する様々な条件下での包括的な実験により,本手法は,複数の問題設定に対する精度やリコールなど,様々な評価指標のベースラインを上回っていることが示された。
関連論文リスト
- Robust Domain Misinformation Detection via Multi-modal Feature Alignment [49.89164555394584]
マルチモーダルな誤情報検出のための頑健なドメインとクロスモーダルなアプローチを提案する。
テキストと視覚の共役分布を整列させることにより、ドメインシフトを低減する。
また,ドメイン一般化のアプリケーションシナリオを同時に検討するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-24T07:06:16Z) - An Attention-Based Denoising Framework for Personality Detection in
Social Media Texts [1.4887196224762684]
ユーザ生成テキストに基づくパーソナリティ検出は、ユーザポートレートを構築するために使用できる普遍的な方法である。
本稿では,注目情報抽出機構(AIEM)を提案する。
ゴールド標準のTwitter-Myers-Briggs Type Indicatorデータセットでは,平均精度が10.2%向上した。
論文 参考訳(メタデータ) (2023-11-16T14:56:09Z) - Unsupervised Sentiment Analysis of Plastic Surgery Social Media Posts [91.3755431537592]
ソーシャルメディアプラットフォームにまたがる膨大なユーザー投稿は、主に人工知能(AI)のユースケースに使われていない。
自然言語処理(NLP)は、コーパス(corpora)として知られるドキュメントの体系を利用して、人間のような言語理解でコンピュータを訓練するAIのサブフィールドである。
本研究は, 教師なし解析の応用により, コンピュータがプラスティック手術に対する否定的, 肯定的, 中立的なユーザ感情を予測できることを示した。
論文 参考訳(メタデータ) (2023-07-05T20:16:20Z) - ManiTweet: A New Benchmark for Identifying Manipulation of News on Social Media [74.93847489218008]
ソーシャルメディア上でのニュースの操作を識別し,ソーシャルメディア投稿の操作を検出し,操作された情報や挿入された情報を特定することを目的とした,新しいタスクを提案する。
この課題を研究するために,データ収集スキーマを提案し,3.6K対のツイートとそれに対応する記事からなるManiTweetと呼ばれるデータセットをキュレートした。
我々の分析では、このタスクは非常に難しいことを示し、大きな言語モデル(LLM)は不満足なパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2023-05-23T16:40:07Z) - Improved Topic modeling in Twitter through Community Pooling [0.0]
Twitterの投稿は短いが、他のテキストよりも一貫性が低いことが多い。
著者が同じコミュニティに属しているツイートをグループ化する,トピックモデリングのための新しいプール方式を提案する。
その結果、我々のコミュニティポーリング手法は、2つの異種データセットの指標の大部分において、他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-12-20T17:05:32Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - The Surprising Performance of Simple Baselines for Misinformation
Detection [4.060731229044571]
我々は、現代のトランスフォーマーベースの言語モデルの広いセットのパフォーマンスを調べます。
誤情報検出の新たな手法の創出と評価のベースラインとして,本フレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-14T16:25:22Z) - Cross-Media Keyphrase Prediction: A Unified Framework with
Multi-Modality Multi-Head Attention and Image Wordings [63.79979145520512]
マルチメディア投稿におけるキーワード予測におけるテキストと画像の併用効果について検討する。
複雑なマルチメディアインタラクションを捉えるために,M3H-Att(Multi-Modality Multi-Head Attention)を提案する。
我々のモデルは,従来の注目ネットワークに基づいて,過去の技術状況よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-11-03T08:44:18Z) - TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection [8.338441212378587]
急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
論文 参考訳(メタデータ) (2020-08-16T10:39:50Z) - Mining Implicit Relevance Feedback from User Behavior for Web Question
Answering [92.45607094299181]
本研究は,ユーザ行動と通過関連性との関連性を検討するための最初の研究である。
提案手法は,追加のラベル付きデータを使わずにパスランキングの精度を大幅に向上させる。
実際にこの研究は、グローバルな商用検索エンジンにおけるQAサービスの人為的ラベリングコストを大幅に削減する効果が証明されている。
論文 参考訳(メタデータ) (2020-06-13T07:02:08Z) - GLEAKE: Global and Local Embedding Automatic Keyphrase Extraction [1.0681288493631977]
本稿では,自動キーフレーズ抽出作業のためのグローバルおよびローカル埋め込み自動キーフレーズエクストラクタ(GLEAKE)について紹介する。
GLEAKEは単一の単語と複数単語の埋め込み技術を用いて、候補句の構文的・意味的な側面を探索する。
キーフレーズの最終セットとして最も重要なフレーズを洗練させる。
論文 参考訳(メタデータ) (2020-05-19T20:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。