論文の概要: A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings
- arxiv url: http://arxiv.org/abs/2110.00866v1
- Date: Sat, 2 Oct 2021 18:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-06 09:34:13.744093
- Title: A Case Study to Reveal if an Area of Interest has a Trend in Ongoing
Tweets Using Word and Sentence Embeddings
- Title(参考訳): 単語と文の埋め込みを用いた現在進行中のツイートにおける関心領域の傾向を明らかにするケーススタディ
- Authors: \.Ismail Aslan and Y\"ucel Top\c{c}u
- Abstract要約: 我々は、デイリー平均類似度スコアが日々のツイートコーパスとターゲット語との類似性を示す、容易に適用可能な自動化手法を提案する。
デイリー平均類似度スコアは主にコサイン類似度と単語/文埋め込みに基づいている。
また,提案手法を適用しながら単語と文の埋め込みの有効性を比較し,ほぼ同じ結果が得られることを認識した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of Natural Language Processing, information extraction from
texts has been the objective of many researchers for years. Many different
techniques have been applied in order to reveal the opinion that a tweet might
have, thus understanding the sentiment of the small writing up to 280
characters. Other than figuring out the sentiment of a tweet, a study can also
focus on finding the correlation of the tweets with a certain area of interest,
which constitutes the purpose of this study. In order to reveal if an area of
interest has a trend in ongoing tweets, we have proposed an easily applicable
automated methodology in which the Daily Mean Similarity Scores that show the
similarity between the daily tweet corpus and the target words representing our
area of interest is calculated by using a na\"ive correlation-based technique
without training any Machine Learning Model. The Daily Mean Similarity Scores
have mainly based on cosine similarity and word/sentence embeddings computed by
Multilanguage Universal Sentence Encoder and showed main opinion stream of the
tweets with respect to a certain area of interest, which proves that an ongoing
trend of a specific subject on Twitter can easily be captured in almost real
time by using the proposed methodology in this study. We have also compared the
effectiveness of using word versus sentence embeddings while applying our
methodology and realized that both give almost the same results, whereas using
word embeddings requires less computational time than sentence embeddings, thus
being more effective. This paper will start with an introduction followed by
the background information about the basics, then continue with the explanation
of the proposed methodology and later on finish by interpreting the results and
concluding the findings.
- Abstract(参考訳): 自然言語処理の分野では、テキストからの情報抽出が長年にわたって多くの研究者の目的となっている。
ツイートが持つかもしれないという意見を明らかにするために、多くの異なるテクニックが適用され、280文字までの小さな文字の感情が理解されている。
この研究は、ツイートの感情を解明する以外に、特定の関心領域とツイートの相関関係を見出すことにも焦点を絞ることができる。
関心領域が現在進行中のツイートにトレンドがあるかどうかを明らかにするために、機械学習モデルをトレーニングせずにna\"ive correlation-based techniqueを用いて、日々のつぶやきコーパスと関心領域を表す対象語との類似性を示す日平均類似度スコアを算出した、容易に適用可能な自動手法を提案する。
日平均類似度スコアは,多言語共通文エンコーダで計算されたコサイン類似度と単語/感情埋め込みに基づき,特定の関心領域に対するツイートの主意見ストリームを示し,提案手法を用いてtwitter上の特定の主題の現在進行中の傾向をほぼリアルタイムで捉えることができることを示した。
また,提案手法を適用しながら,単語と文の埋め込みの有効性を比較し,両者がほぼ同じ結果を与えるのに対して,単語埋め込みは文埋め込みよりも計算時間が少なく,より効果的であることを示した。
本論文は,基礎に関する背景情報とともに紹介から始まり,提案手法の説明を継続し,その結果を解釈し,その結果を結論づける。
関連論文リスト
- CAST: Corpus-Aware Self-similarity Enhanced Topic modelling [16.562349140796115]
CAST: Corpus-Aware Self-similarity Enhanced Topic modelling, a novel topic modelling methodを紹介する。
機能的単語が候補話題語として振る舞うのを防ぐための効果的な指標として自己相似性を見出した。
提案手法は,生成したトピックの一貫性と多様性,およびノイズの多いデータを扱うトピックモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-19T15:27:11Z) - Relational Sentence Embedding for Flexible Semantic Matching [86.21393054423355]
文埋め込みの可能性を明らかにするための新しいパラダイムとして,文埋め込み(Sentence Embedding, RSE)を提案する。
RSEは文関係のモデル化に有効で柔軟性があり、一連の最先端の埋め込み手法より優れている。
論文 参考訳(メタデータ) (2022-12-17T05:25:17Z) - DEIM: An effective deep encoding and interaction model for sentence
matching [0.0]
本稿では,ディープエンコーディングとインタラクションに基づく文マッチング手法を提案する。
エンコーダ層では、1つの文を符号化する過程で他の文の情報を参照し、その後、アルゴリズムを用いて情報を融合する。
インタラクション層では、双方向の注意機構と自己注意機構を用いて深い意味情報を得る。
論文 参考訳(メタデータ) (2022-03-20T07:59:42Z) - Exploiting Twitter as Source of Large Corpora of Weakly Similar Pairs
for Semantic Sentence Embeddings [3.8073142980733]
本稿では,言語に依存しない2組の非公式テキストのデータセットを構築する手法を提案する。
ツイートの返信と引用という、Twitterの本質的な強力な関連性のシグナルを利用しています。
我々のモデルは古典的セマンティックテキスト類似性を学習するだけでなく、文のペアが正確なパラフレーズではないタスクにも長けている。
論文 参考訳(メタデータ) (2021-10-05T13:21:40Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Match-Ignition: Plugging PageRank into Transformer for Long-form Text
Matching [66.71886789848472]
実効性と効率性に対処する新しい階層型ノイズフィルタリングモデルであるMatch-Ignitionを提案する。
基本的なアイデアは、よく知られたPageRankアルゴリズムをTransformerに接続し、文と単語レベルの騒々しい情報を識別およびフィルタリングすることです。
文が長文の基本単位であるため、ノイズの多い文はたいてい簡単に検出できるので、PageRankを直接使用してそのような情報をフィルタリングする。
論文 参考訳(メタデータ) (2021-01-16T10:34:03Z) - Narrative Incoherence Detection [76.43894977558811]
本稿では,文間セマンティック理解のための新たなアリーナとして,物語不整合検出の課題を提案する。
複数文の物語を考えると、物語の流れに意味的な矛盾があるかどうかを決定します。
論文 参考訳(メタデータ) (2020-12-21T07:18:08Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - MuSeM: Detecting Incongruent News Headlines using Mutual Attentive
Semantic Matching [7.608480381965392]
2つのテキスト間の一致を測定することは、Web上での偽ニュースや誤解を招くニュースの見出しの検出など、いくつかの有用な応用をもたらす。
本稿では,オリジナルと合成した見出しの相互注意に基づくセマンティックマッチング手法を提案する。
提案手法は,2つの公開データセットに対して,先行技術よりも優れていた。
論文 参考訳(メタデータ) (2020-10-07T19:19:42Z) - A Comparative Study on Structural and Semantic Properties of Sentence
Embeddings [77.34726150561087]
本稿では,関係抽出に広く利用されている大規模データセットを用いた実験セットを提案する。
異なる埋め込み空間は、構造的および意味的特性に対して異なる強度を持つことを示す。
これらの結果は,埋め込み型関係抽出法の開発に有用な情報を提供する。
論文 参考訳(メタデータ) (2020-09-23T15:45:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。