論文の概要: TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection
- arxiv url: http://arxiv.org/abs/2008.06877v1
- Date: Sun, 16 Aug 2020 10:39:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-28 09:05:55.817503
- Title: TopicBERT: A Transformer transfer learning based memory-graph approach
for multimodal streaming social media topic detection
- Title(参考訳): TopicBERT:マルチモーダルストリーミングソーシャルメディアトピック検出のためのトランスフォーマー変換学習に基づくメモリグラフアプローチ
- Authors: Meysam Asgari-Chenaghlu, Mohammad-Reza Feizi-Derakhshi, Leili
farzinvash, Mohammad-Ali Balafar, Cina Motamed
- Abstract要約: 急激な短いメッセージと、様々なトピックにまたがる大規模なデータスケールを持つソーシャルネットワークは、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
- 参考スコア(独自算出の注目度): 8.338441212378587
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real time nature of social networks with bursty short messages and their
respective large data scale spread among vast variety of topics are research
interest of many researchers. These properties of social networks which are
known as 5'Vs of big data has led to many unique and enlightenment algorithms
and techniques applied to large social networking datasets and data streams.
Many of these researches are based on detection and tracking of hot topics and
trending social media events that help revealing many unanswered questions.
These algorithms and in some cases software products mostly rely on the nature
of the language itself. Although, other techniques such as unsupervised data
mining methods are language independent but many requirements for a
comprehensive solution are not met. Many research issues such as noisy
sentences that adverse grammar and new online user invented words are
challenging maintenance of a good social network topic detection and tracking
methodology; The semantic relationship between words and in most cases,
synonyms are also ignored by many of these researches. In this research, we use
Transformers combined with an incremental community detection algorithm.
Transformer in one hand, provides the semantic relation between words in
different contexts. On the other hand, the proposed graph mining technique
enhances the resulting topics with aid of simple structural rules. Named entity
recognition from multimodal data, image and text, labels the named entities
with entity type and the extracted topics are tuned using them. All operations
of proposed system has been applied with big social data perspective under
NoSQL technologies. In order to present a working and systematic solution, we
combined MongoDB with Neo4j as two major database systems of our work. The
proposed system shows higher precision and recall compared to other methods in
three different datasets.
- Abstract(参考訳): バースト的な短いメッセージとそれぞれの大規模データスケールがさまざまなトピックに分散したソーシャルネットワークのリアルタイム性は、多くの研究者の関心を集めている。
ビッグデータの5'Vとして知られるこれらのソーシャルネットワークの特性は、大規模なソーシャルネットワークデータセットやデータストリームに適用される多くのユニークで啓蒙的なアルゴリズムやテクニックを生み出している。
これらの研究の多くは、ホットトピックの検出と追跡と、多くの未解決の質問を明らかにするのに役立つソーシャルメディアイベントのトレンドに基づいている。
これらのアルゴリズム、場合によってはソフトウェア製品は言語自体の性質に依存している。
しかし、教師なしデータマイニング手法のような他の手法は言語に依存しないが、包括的ソリューションに対する多くの要件は満たされていない。
有害な文法や新しいオンラインユーザによる単語を発明する騒々しい文章などの多くの研究課題は、優れたソーシャルネットワークトピックの検出と追跡手法の維持に挑戦している。
本研究では,インクリメンタルなコミュニティ検出アルゴリズムを組み合わせたトランスフォーマーを提案する。
一方、transformerは、異なるコンテキストにおける単語間の意味的関係を提供する。
一方,提案するグラフマイニング手法は,単純な構造規則により,結果のトピックを増大させる。
マルチモーダルデータ、画像、テキストから名前付きエンティティ認識を行い、名前付きエンティティをエンティティタイプにラベル付けし、抽出したトピックをチューニングする。
提案システムの全操作は、NoSQL技術の下で、ビッグデータの視点で適用されている。
ワーキングでシステマティックなソリューションを提供するため、mongodbとneo4jを2つの主要なデータベースシステムとして組み合わせました。
提案手法は,3つの異なるデータセットにおける他の手法と比較して高い精度とリコール率を示す。
関連論文リスト
- Utilizing Social Media Attributes for Enhanced Keyword Detection: An
IDF-LDA Model Applied to Sina Weibo [0.0]
ソーシャルメディアにおけるキーワード検出問題に対処する新しい手法を提案する。
我々のモデルは、逆文書頻度(IDF)と遅延ディリクレ割当(LDA)モデルを組み合わせて、ソーシャルメディアデータの異なる属性に対処する。
論文 参考訳(メタデータ) (2023-05-30T08:35:39Z) - Vision+X: A Survey on Multimodal Learning in the Light of Data [64.03266872103835]
様々なソースからのデータを組み込んだマルチモーダル機械学習が,ますます普及している研究分野となっている。
我々は、視覚、音声、テキスト、動きなど、各データフォーマットの共通点と特異点を分析する。
本稿では,表現学習と下流アプリケーションレベルの両方から,マルチモーダル学習に関する既存の文献を考察する。
論文 参考訳(メタデータ) (2022-10-05T13:14:57Z) - Panning for gold: Lessons learned from the platform-agnostic automated
detection of political content in textual data [48.7576911714538]
異なるプラットフォーム間で政治的コンテンツを検出するために、これらの技術がどのように使用できるかについて議論する。
辞書,教師付き機械学習,ニューラルネットワークに依存する3つの検出手法のパフォーマンスを比較した。
この結果から,ニューラルネットワークと機械学習に基づくモデルによって達成されるノイズの少ないデータに対して,事前処理がモデル性能に与える影響が限定された。
論文 参考訳(メタデータ) (2022-07-01T15:23:23Z) - AtteSTNet -- An attention and subword tokenization based approach for
code-switched text hate speech detection [1.3190581566723918]
ソーシャルメディアで使われる言語は、しばしば英語と地域の母語の組み合わせである。
インドではヒンディー語が主に使われ、しばしば英語で表記され、ヒンズー語(ヒンズー語+英語)が流行する。
論文 参考訳(メタデータ) (2021-12-10T20:01:44Z) - On-the-Fly Rectification for Robust Large-Vocabulary Topic Inference [14.664456948527292]
オブジェクト語彙が大きくなるにつれて、共起統計に基づく推論アルゴリズムの保存と実行がより高価になる。
本稿では,共起統計を同時に圧縮・修正する新しい手法を提案する。
また、圧縮された統計量から潜伏変数を学習し、テキストデータと非テキストデータの両方において従来の手法と相容れない性能を検証した。
論文 参考訳(メタデータ) (2021-11-12T06:44:04Z) - Sentiment analysis in tweets: an assessment study from classical to
modern text representation models [59.107260266206445]
Twitterで公開された短いテキストは、豊富な情報源として大きな注目を集めている。
非公式な言語スタイルや騒々しい言語スタイルといったそれらの固有の特徴は、多くの自然言語処理(NLP)タスクに挑戦し続けている。
本研究では,22データセットの豊富なコレクションを用いて,ツイートに表される感情を識別する既存言語モデルの評価を行った。
論文 参考訳(メタデータ) (2021-05-29T21:05:28Z) - Semantic maps and metrics for science Semantic maps and metrics for
science using deep transformer encoders [1.599072005190786]
ディープトランスフォーマーネットワークによる自然言語理解の最近の進歩は、マッピング科学に新たな可能性をもたらす。
トランスフォーマー埋め込みモデルは、異なる言語文脈で異なる関連と意味の陰を捉えます。
本稿では,これらのツールを用いて学術文書を符号化する手法について報告する。
論文 参考訳(メタデータ) (2021-04-13T04:12:20Z) - Be More with Less: Hypergraph Attention Networks for Inductive Text
Classification [56.98218530073927]
グラフニューラルネットワーク(GNN)は、研究コミュニティで注目され、この標準タスクで有望な結果を実証している。
成功にもかかわらず、それらのパフォーマンスは、単語間の高次相互作用をキャプチャできないため、実際は大部分が危険に晒される可能性がある。
本稿では,テキスト表現学習において,少ない計算量でより表現力の高いハイパーグラフアテンションネットワーク(HyperGAT)を提案する。
論文 参考訳(メタデータ) (2020-11-01T00:21:59Z) - Pretrained Transformers for Text Ranking: BERT and Beyond [53.83210899683987]
このサーベイは、トランスフォーマーとして知られるニューラルネットワークアーキテクチャによるテキストランキングの概要を提供する。
トランスフォーマーと自己教師型事前学習の組み合わせは、自然言語処理のパラダイムシフトの原因となっている。
論文 参考訳(メタデータ) (2020-10-13T15:20:32Z) - Sequential Sentence Matching Network for Multi-turn Response Selection
in Retrieval-based Chatbots [45.920841134523286]
本稿では,文レベルの意味情報を用いて問題に対処する,逐次文マッチングネットワーク(S2M)を提案する。
まず、文レベルの意味情報を用いて、ネットワークが問題に対処し、マッチングを大幅に改善し、その結果、最先端のパフォーマンスが得られることがわかった。
論文 参考訳(メタデータ) (2020-05-16T09:47:19Z) - Distributed Learning in the Non-Convex World: From Batch to Streaming
Data, and Beyond [73.03743482037378]
分散学習は、多くの人々が想定する、大規模に接続された世界の重要な方向となっている。
本稿では、スケーラブルな分散処理とリアルタイムデータ計算の4つの重要な要素について論じる。
実践的な問題や今後の研究についても論じる。
論文 参考訳(メタデータ) (2020-01-14T14:11:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。