論文の概要: Smart Crawling: A New Approach toward Focus Crawling from Twitter
- arxiv url: http://arxiv.org/abs/2110.06022v1
- Date: Fri, 8 Oct 2021 11:04:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-17 11:40:09.395313
- Title: Smart Crawling: A New Approach toward Focus Crawling from Twitter
- Title(参考訳): スマートクローリング:Twitterからのフォーカスクローリングへの新たなアプローチ
- Authors: Ahmad Khazaie, Nac\'era Bennacer Seghouani, Francesca Bugiotti
- Abstract要約: TwitterデータはREST APIを使ってアクセスすることができる。
SmartTwitter Crawling(STiC)は、ターゲットトピックに関連する一連のツイートを検索する。
- 参考スコア(独自算出の注目度): 0.10312968200748115
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Twitter is a social network that offers a rich and interesting source of
information challenging to retrieve and analyze. Twitter data can be accessed
using a REST API. The available operations allow retrieving tweets on the basis
of a set of keywords but with limitations such as the number of calls per
minute and the size of results. Besides, there is no control on retrieved
results and finding tweets which are relevant to a specific topic is a big
issue. Given these limitations, it is important that the query keywords cover
unambiguously the topic of interest in order to both reach the relevant answers
and decrease the number of API calls. In this paper, we introduce a new
crawling algorithm called "SmartTwitter Crawling" (STiC) that retrieves a set
of tweets related to a target topic. In this algorithm, we take an initial
keyword query and enrich it using a set of additional keywords that come from
different data sources. STiC algorithm relies on a DFS search in Twittergraph
where each reached tweet is considered if it is relevant with the query
keywords using a scoring, updated throughout the whole crawling process. This
scoring takes into account the tweet text, hashtags and the users who have
posted the tweet, replied to the tweet, been mentioned in the tweet or
retweeted the tweet. Given this score, STiC is able to select relevant tweets
in each iteration and continue by adding the related valuable tweets. Several
experiments have been achieved for different kinds of queries, the results
showedthat the precision increases compared to a simple BFS search.
- Abstract(参考訳): Twitterは、検索と分析が難しいリッチで興味深い情報ソースを提供するソーシャルネットワークだ。
TwitterデータはREST APIを使ってアクセスすることができる。
利用可能な操作は、一組のキーワードに基づいてツイートを検索できるが、1分間の呼び出し数や結果のサイズといった制限がある。
さらに、検索された結果に対するコントロールや、特定のトピックに関連するつぶやきを見つけることも大きな問題です。
これらの制限を考慮すると、クエリキーワードが、関連する回答に到達し、API呼び出しの数を減らすために、明らかに関心のあるトピックをカバーすることが重要である。
本稿では,対象トピックに関連するツイートの集合を検索する,SmartTwitter Crawling (STiC)と呼ばれる新しいクローリングアルゴリズムを提案する。
このアルゴリズムでは、初期キーワードクエリを取り込み、異なるデータソースから得られる追加キーワードのセットを使って強化する。
sticアルゴリズムは、twittergraphのdfs検索に依存しており、クロールプロセス全体を通して更新されたスコア付けを使用してクエリキーワードと関連する場合、それぞれの到達したツイートが考慮される。
このスコアは、ツイートのテキスト、ハッシュタグ、ツイートを投稿したユーザー、ツイートへの返信、ツイートで言及されたり、ツイートをリツイートしたユーザーを考慮に入れている。
このスコアから、STiCは各イテレーションで関連するツイートを選択し、関連する価値あるツイートを追加することで継続することができる。
様々な種類のクエリに対していくつかの実験が行われ、単純なBFS検索と比較して精度が向上することを示した。
関連論文リスト
- Real-Time Summarization of Twitter [9.034423337410274]
我々は、リアルタイムプッシュ通知のシナリオに焦点を当て、システムはサンプルツイートのストリームを監視し、特定の興味のあるプロフィールに関連するつぶやきを返す必要がある。
ツイートが特定の関心プロファイルに関連するかどうかを分類するために、Dirichletスコアと、非常にスムーズな(ベースライン)で採用しています。
また、プッシュキューから冗長なツイートを削除することも望まれる。
論文 参考訳(メタデータ) (2024-07-11T01:56:31Z) - LIST: Learning to Index Spatio-Textual Data for Embedding based Spatial Keyword Queries [53.843367588870585]
リスト K-kNN 空間キーワードクエリ (TkQ) は、空間的およびテキスト的関連性の両方を考慮したランキング関数に基づくオブジェクトのリストを返す。
効率的かつ効率的な指標、すなわち高品質なラベルの欠如とバランスの取れない結果を構築する上で、大きな課題が2つある。
この2つの課題に対処する新しい擬似ラベル生成手法を開発した。
論文 参考訳(メタデータ) (2024-03-12T05:32:33Z) - Hashtag-Guided Low-Resource Tweet Classification [31.810562621519804]
ハッシュタグ誘導型つぶやき分類モデル(HashTation)を提案する。
HashTationは、入力ツイートの有意義なハッシュタグを自動的に生成し、ツイート分類に有用な補助信号を提供する。
実験によると、HashTationは7つの低リソースのつぶやき分類タスクで大幅に改善されている。
論文 参考訳(メタデータ) (2023-02-20T18:21:02Z) - Manipulating Twitter Through Deletions [64.33261764633504]
Twitter上でのインフルエンスキャンペーンの研究は、公開APIを通じて得られたツイートから悪意のあるアクティビティを識別することに大きく依存している。
ここでは,1100万以上のアカウントによる10億以上の削除を含む,異常な削除パターンを網羅的かつ大規模に分析する。
少数のアカウントが毎日大量のツイートを削除していることがわかった。
まず、ツイートのボリューム制限が回避され、特定のアカウントが毎日2600万以上のツイートをネットワークに流すことができる。
第二に、調整されたアカウントのネットワークは、繰り返しのいいね!や、最終的に削除されるコンテンツとは違って、ランキングアルゴリズムを操作できる。
論文 参考訳(メタデータ) (2022-03-25T20:07:08Z) - Identification of Twitter Bots based on an Explainable ML Framework: the
US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。
Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。
また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文 参考訳(メタデータ) (2021-12-08T14:12:24Z) - A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings [0.0]
我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
論文 参考訳(メタデータ) (2021-10-02T18:44:55Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - How Will Your Tweet Be Received? Predicting the Sentiment Polarity of
Tweet Replies [3.5263924621989196]
我々は新しいタスクを提案する:与えられたツイートに対する(第一次)応答の主観的な感情を予測する。
私たちは、感情ラベルを手動でアノテートしたツイートと返信の大規模なデータセットであるRETWEETを作成します。
自動ラベル付きデータを使用して、ニューラルネットワークの教師付きトレーニングを行い、元のツイートからの返信感情を予測する。
論文 参考訳(メタデータ) (2021-04-21T13:08:45Z) - Covid-Transformer: Detecting COVID-19 Trending Topics on Twitter Using
Universal Sentence Encoder [7.305019142196582]
新型コロナウイルス感染症(COVID-19)がパンデミックを引き起こし、世界200カ国以上に感染した。
新型コロナウイルス(COVID-19)の世界的な影響により、ほぼ至る所で人々の大きな関心事となっている。
われわれは、ツイートを分析し、トレンドトピックやTwitter上の人々の関心事を検出する。
論文 参考訳(メタデータ) (2020-09-08T19:00:38Z) - Writer Identification Using Microblogging Texts for Social Media
Forensics [53.180678723280145]
私たちは、文学的分析に広く使われている人気のあるスタイル的特徴と、URL、ハッシュタグ、返信、引用などの特定のTwitter機能を評価します。
我々は、様々なサイズの著者集合と、著者毎のトレーニング/テストテキストの量をテストする。
論文 参考訳(メタデータ) (2020-07-31T00:23:18Z) - On Identifying Hashtags in Disaster Twitter Data [55.17975121160699]
我々は,行動可能な情報をフィルタリングするのに有用なハッシュタグを付加した災害関連ツイートのユニークなデータセットを構築した。
このデータセットを用いて,マルチタスク学習フレームワークにおける長期記憶モデルについて検討する。
最高のパフォーマンスモデルでは、F1スコアは92.22%に達する。
論文 参考訳(メタデータ) (2020-01-05T22:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。