論文の概要: A Python Library for Exploratory Data Analysis on Twitter Data based on
Tokens and Aggregated Origin-Destination Information
- arxiv url: http://arxiv.org/abs/2009.01826v3
- Date: Wed, 24 Nov 2021 11:27:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 07:35:01.204071
- Title: A Python Library for Exploratory Data Analysis on Twitter Data based on
Tokens and Aggregated Origin-Destination Information
- Title(参考訳): TokensとAggregated Origin-Destination情報に基づくTwitterデータの探索データ解析のためのPythonライブラリ
- Authors: Mario Graff and Daniela Moctezuma and Sabino Miranda-Jim\'enez and
Eric S. Tellez
- Abstract要約: この提案は、2015年12月からTwitterから収集された処理情報の集合を開いて、Twitter上のイベントのマイニングを容易にすることを目的としている。
この出来事は、自然災害、健康問題、人々の移動性など、提案された図書館で追及できる研究に関係している可能性がある。
要約すると、提示されるPythonライブラリは、異なるドメインに適用され、アラビア語、英語、スペイン語、ロシア語の単語の2グラムの単語と2日単位の頻度で情報を取り出す。
- 参考スコア(独自算出の注目度): 1.5299433434194856
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Twitter is perhaps the social media more amenable for research. It requires
only a few steps to obtain information, and there are plenty of libraries that
can help in this regard. Nonetheless, knowing whether a particular event is
expressed on Twitter is a challenging task that requires a considerable
collection of tweets. This proposal aims to facilitate, to a researcher
interested, the process of mining events on Twitter by opening a collection of
processed information taken from Twitter since December 2015. The events could
be related to natural disasters, health issues, and people's mobility, among
other studies that can be pursued with the library proposed. Different
applications are presented in this contribution to illustrate the library's
capabilities: an exploratory analysis of the topics discovered in tweets, a
study on similarity among dialects of the Spanish language, and a mobility
report on different countries. In summary, the Python library presented is
applied to different domains and retrieves a plethora of information in terms
of frequencies by day of words and bi-grams of words for Arabic, English,
Spanish, and Russian languages. As well as mobility information related to the
number of travels among locations for more than 200 countries or territories.
- Abstract(参考訳): twitterはおそらく、より研究に適したソーシャルメディアだ。
情報を得るためにはほんの数ステップしか必要とせず、この点に関して役立つライブラリはたくさんあります。
それでも、特定のイベントがTwitterで表現されているかどうかを知ることは、かなりの数のツイートを収集する必要がある難しい作業だ。
この提案は、2015年12月からTwitterから収集された処理された情報のコレクションを開くことで、研究者がTwitter上でイベントをマイニングするプロセスを促進することを目的としている。
この出来事は、自然災害、健康問題、人々の移動性など、提案された図書館で追求できる研究と関係がある可能性がある。
ツイートで発見されたトピックの探索的分析、スペイン語の方言間の類似性の研究、そして異なる国のモビリティレポートである。
要約すると、提示されるPythonライブラリは、異なるドメインに適用され、アラビア語、英語、スペイン語、ロシア語の単語の2グラムの単語と2日単位の頻度で情報を取り出す。
また、200か国以上の地域や領土の旅行者数に関する移動情報も含む。
関連論文リスト
- SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - BERTuit: Understanding Spanish language in Twitter through a native
transformer [70.77033762320572]
bfBERTuitは、これまでスペイン語のために提案された大きなトランスフォーマーで、2億3000万のスペイン語ツイートの膨大なデータセットで事前トレーニングされている。
私たちのモチベーションは、スペイン語のTwitterをよりよく理解し、このソーシャルネットワークにフォーカスしたアプリケーションに利用するための強力なリソースを提供することです。
論文 参考訳(メタデータ) (2022-04-07T14:28:51Z) - TBCOV: Two Billion Multilingual COVID-19 Tweets with Sentiment, Entity,
Geo, and Gender Labels [5.267993069044648]
この研究は、新型コロナウイルス(COVID-19)のパンデミックに関連する20億以上の多言語ツイートを1年以上にわたって収集した大規模なTwitterデータセットTBCOVを提示する。
いくつかの最先端のディープラーニングモデルは、感情ラベル、名前付きエンティティ、人物の言及、組織、場所、ユーザータイプ、性別情報など、重要な属性でデータを強化するために使用される。
我々の感情と傾向分析は興味深い洞察を示し、TBCOVが重要なトピックを幅広くカバーしていることを確認する。
論文 参考訳(メタデータ) (2021-10-04T06:17:12Z) - A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings [0.0]
我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
論文 参考訳(メタデータ) (2021-10-02T18:44:55Z) - Exploiting BERT For Multimodal Target SentimentClassification Through
Input Space Translation [75.82110684355979]
オブジェクト認識変換器を用いて入力空間内の画像を変換する2ストリームモデルを提案する。
次に、翻訳を利用して、言語モデルに多モーダル情報を提供する補助文を構築する。
2つのマルチモーダルTwitterデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2021-08-03T18:02:38Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semi-automatic Generation of Multilingual Datasets for Stance Detection
in Twitter [9.359018642178917]
本稿では,Twitterにおける姿勢検出のための多言語データセットを得る手法を提案する。
ユーザベースの情報を利用して、大量のツイートを半自動でラベル付けします。
論文 参考訳(メタデータ) (2021-01-28T13:05:09Z) - TweetBERT: A Pretrained Language Representation Model for Twitter Text
Analysis [0.0]
我々は、何百万ものツイートで事前訓練されたドメイン固有言語プレゼンテーションモデルである2つのTweetBERTモデルを紹介した。
TweetBERTモデルは、Twitterのテキストマイニングタスクにおける従来のBERTモデルよりも、各Twitterデータセットで7%以上優れています。
論文 参考訳(メタデータ) (2020-10-17T00:45:02Z) - Improving Sentiment Analysis over non-English Tweets using Multilingual
Transformers and Automatic Translation for Data-Augmentation [77.69102711230248]
我々は、英語のつぶやきを事前学習し、自動翻訳を用いてデータ拡張を適用して非英語の言語に適応する多言語トランスフォーマーモデルを提案する。
我々のフランス語、スペイン語、ドイツ語、イタリア語での実験は、この手法が非英語のツイートの小さなコーパスよりも、トランスフォーマーの結果を改善する効果的な方法であることを示唆している。
論文 参考訳(メタデータ) (2020-10-07T15:44:55Z) - Sentiment Analysis on Social Media Content [0.0]
本研究の目的は,Twitterから収集した実データの感情分析を行うモデルを提案することである。
Twitterのデータは非常に非構造化されており、分析が困難である。
提案手法は,教師付き機械学習アルゴリズムと教師なし機械学習アルゴリズムの併用により,この分野の先行研究とは異なる。
論文 参考訳(メタデータ) (2020-07-04T17:03:30Z) - A Corpus for Large-Scale Phonetic Typology [112.19288631037055]
本稿では,VoxClamantis v1.0について紹介する。
635言語にまたがる690の音素レベルラベルと690の音素レベルラベルと母音とシビラントの音響・音韻測定を行った。
論文 参考訳(メタデータ) (2020-05-28T13:03:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。