論文の概要: Thematic context vector association based on event uncertainty for
Twitter
- arxiv url: http://arxiv.org/abs/2304.01423v1
- Date: Tue, 4 Apr 2023 00:13:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 15:59:20.414982
- Title: Thematic context vector association based on event uncertainty for
Twitter
- Title(参考訳): Twitterの事象不確実性に基づく意味的文脈ベクトル関連
- Authors: Vaibhav Khatavkar, Swapnil Mane and Parag Kulkarni
- Abstract要約: 本稿では,データアソシエーションの助けを借りて,テーマイベントを用いて文脈キーワードを抽出する。
このシステムはTwitter COVID-19データセットでテストされており、有効であることが証明されている。
- 参考スコア(独自算出の注目度): 0.08594140167290096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Keyword extraction is a crucial process in text mining. The extraction of
keywords with respective contextual events in Twitter data is a big challenge.
The challenging issues are mainly because of the informality in the language
used. The use of misspelled words, acronyms, and ambiguous terms causes
informality. The extraction of keywords with informal language in current
systems is pattern based or event based. In this paper, contextual keywords are
extracted using thematic events with the help of data association. The thematic
context for events is identified using the uncertainty principle in the
proposed system. The thematic contexts are weighed with the help of vectors
called thematic context vectors which signifies the event as certain or
uncertain. The system is tested on the Twitter COVID-19 dataset and proves to
be effective. The system extracts event-specific thematic context vectors from
the test dataset and ranks them. The extracted thematic context vectors are
used for the clustering of contextual thematic vectors which improves the
silhouette coefficient by 0.5% than state of art methods namely TF and TF-IDF.
The thematic context vector can be used in other applications like
Cyberbullying, sarcasm detection, figurative language detection, etc.
- Abstract(参考訳): キーワード抽出はテキストマイニングにおいて重要なプロセスである。
twitterのデータ内の各コンテキストイベントのキーワードの抽出は、大きな課題だ。
難しい問題は、主に使われている言語の非公式性にある。
誤字、頭字語、曖昧な言葉の使用は非公式性を引き起こす。
現在のシステムにおける非公式言語によるキーワードの抽出はパターンベースかイベントベースである。
本稿では,データアソシエーションを用いて,テーマイベントを用いて文脈キーワードを抽出する。
イベントの主題的文脈は、提案システムにおける不確実性原理を用いて同定される。
主題的文脈は、事象を確実か不確実かを示すテーマ的文脈ベクトルと呼ばれるベクトルの助けを借りて重ねられる。
このシステムはtwitterのcovid-19データセットでテストされ、効果的であることが証明される。
このシステムは、テストデータセットからイベント固有のテーマコンテキストベクトルを抽出してランク付けする。
抽出された意味論的文脈ベクトルは、TFおよびTF-IDFという技術手法の状態よりもシルエット係数を0.5%改善する文脈的テーマ的ベクトルのクラスタリングに使用される。
テーマコンテキストベクトルは、Cyberbullying、sarcasm Detection、figurative language detectionなど、他のアプリケーションで使用することができる。
関連論文リスト
- Span-Aggregatable, Contextualized Word Embeddings for Effective Phrase Mining [0.22499166814992438]
目的語句が雑音の多い文脈内に存在する場合, 単語の完全文を1つの高次ベクトルで表すだけでは, 効果的な句検索には不十分であることを示す。
本稿では,この手法がフレーズマイニングに有用であるが,有用なスパン表現を得るためには,かなりの計算が必要であることを示す。
論文 参考訳(メタデータ) (2024-05-12T12:08:05Z) - Towards Event Extraction from Speech with Contextual Clues [61.164413398231254]
本稿では,音声イベント抽出(SpeechEE)タスクを導入し,3つの合成トレーニングセットと1つの人為的テストセットを構築した。
テキストからのイベント抽出と比較して、SpeechEEは、主に連続的で単語境界を持たない複雑な音声信号のために、より大きな課題を提起する。
我々の手法はすべてのデータセットに大幅な改善をもたらし、最大10.7%のF1ゲインを達成する。
論文 参考訳(メタデータ) (2024-01-27T11:07:19Z) - Semantic Pivoting Model for Effective Event Detection [19.205550116466604]
Event Detectionは、構造化されていない記事からイベントインスタンスの参照を識別し、分類することを目的としている。
イベント検出の既存のテクニックは、イベントタイプクラスを表現するために、均質な1ホットベクトルのみを使用しており、型の意味がタスクにとって重要であるという事実を無視している。
本稿では,学習中の事前情報を明示的に組み込んで,入力とイベント間の意味的に意味のある相関関係を捉えるセマンティック・ピロリング・モデル(SPEED)を提案する。
論文 参考訳(メタデータ) (2022-11-01T19:20:34Z) - Textual Entailment Recognition with Semantic Features from Empirical
Text Representation [60.31047947815282]
テキストが仮説を包含するのは、仮説の真の価値がテキストに従う場合に限る。
本稿では,テキストと仮説のテキストの包含関係を同定する新しい手法を提案する。
本手法では,テキスト・ハイブリッド・ペア間の意味的含意関係を識別できる要素ワイド・マンハッタン距離ベクトルベースの特徴を用いる。
論文 参考訳(メタデータ) (2022-10-18T10:03:51Z) - How does a Pre-Trained Transformer Integrate Contextual Keywords?
Application to Humanitarian Computing [0.0]
本稿では,各ツイートに危機イベントタイプを追加して人道的分類タスクを改善する方法について述べる。
これは、提案されたニューラルネットワークアプローチが、Crisis Benchmarkの特殊性を部分的に過度に適合しているかを示している。
論文 参考訳(メタデータ) (2021-11-07T11:24:08Z) - Deriving Word Vectors from Contextualized Language Models using
Topic-Aware Mention Selection [46.97185212695267]
本稿では,この基本戦略に従って単語表現を学習する手法を提案する。
我々は、文脈を符号化するワードベクトルの袋ではなく、文脈化された言語モデル(CLM)を利用する。
この単純な戦略は、単語埋め込みや既存のCLMベースの戦略よりも意味的特性をより予測し、高品質な単語ベクトルに繋がることを示す。
論文 参考訳(メタデータ) (2021-06-15T08:02:42Z) - UCPhrase: Unsupervised Context-aware Quality Phrase Tagging [63.86606855524567]
UCPhraseは、教師なしの文脈対応のフレーズタグである。
我々は,一貫した単語列から,高品質なフレーズを銀のラベルとして表現する。
我々の設計は、最先端の事前訓練、教師なし、遠隔管理の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-28T19:44:24Z) - R$^2$-Net: Relation of Relation Learning Network for Sentence Semantic
Matching [58.72111690643359]
文意味マッチングのための関係学習ネットワーク(R2-Net)を提案する。
最初にBERTを使用して、グローバルな視点から入力文をエンコードします。
次に、cnnベースのエンコーダは、ローカルな視点からキーワードやフレーズ情報をキャプチャするように設計されている。
関係情報抽出にラベルを十分に活用するために,関係分類タスクの自己教師付き関係性を導入する。
論文 参考訳(メタデータ) (2020-12-16T13:11:30Z) - Text Classification with Few Examples using Controlled Generalization [58.971750512415134]
現在の実践は、トレーニング中に見えない単語を、類似した単語とマッピングするために、事前訓練された単語埋め込みに依存している。
私たちの代替案は、未ラベルのパースコーパスから派生したスパース事前訓練された表現から始まります。
これらのベクトル上のフィードフォワードネットワークは、特に低データシナリオにおいて有効であることを示す。
論文 参考訳(メタデータ) (2020-05-18T06:04:58Z) - Context based Text-generation using LSTM networks [0.5330240017302621]
提案モデルでは,与えられた入力単語の集合とコンテキストベクトルのテキストを生成するように訓練されている。
生成したテキストのコンテキストに対するセマンティック・クローズネスに基づいて評価を行う。
論文 参考訳(メタデータ) (2020-04-30T18:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。