Fugu-MT 論文翻訳(概要): Multimodal Detection of Social Spambots in Twitter using Transformers

論文の概要: Multimodal Detection of Social Spambots in Twitter using Transformers

arxiv url: http://arxiv.org/abs/2308.14484v1
Date: Mon, 28 Aug 2023 10:51:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-29 14:21:07.931128
Title: Multimodal Detection of Social Spambots in Twitter using Transformers
Title（参考訳）: トランスフォーマーを用いたtwitterにおけるソーシャルスパムボットのマルチモーダル検出
Authors: Loukas Ilias, Ioannis Michail Kazelidis, Dimitris Askounis
Abstract要約: ソーシャルスパムボットの早期発見は極めて重要である。既存の研究イニシアチブは依然として多くの機能を抽出し、従来の機械学習アルゴリズムを訓練している。我々はTwHIN-BERTを用いてユーザ記述フィールドのテキスト表現を実現するマルチモーダルアプローチを提案する。 Cresci '17データセットで実施された大規模な実験は、我々の導入したアプローチの利点を実証している。
参考スコア（独自算出の注目度）: 7.182245711235296
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Although not all bots are malicious, the vast majority of them are responsible for spreading misinformation and manipulating the public opinion about several issues, i.e., elections and many more. Therefore, the early detection of social spambots is crucial. Although there have been proposed methods for detecting bots in social media, there are still substantial limitations. For instance, existing research initiatives still extract a large number of features and train traditional machine learning algorithms or use GloVe embeddings and train LSTMs. However, feature extraction is a tedious procedure demanding domain expertise. Also, language models based on transformers have been proved to be better than LSTMs. Other approaches create large graphs and train graph neural networks requiring in this way many hours for training and access to computational resources. To tackle these limitations, this is the first study employing only the user description field and images of three channels denoting the type and content of tweets posted by the users. Firstly, we create digital DNA sequences, transform them to 3d images, and apply pretrained models of the vision domain, including EfficientNet, AlexNet, VGG16, etc. Next, we propose a multimodal approach, where we use TwHIN-BERT for getting the textual representation of the user description field and employ VGG16 for acquiring the visual representation for the image modality. We propose three different fusion methods, namely concatenation, gated multimodal unit, and crossmodal attention, for fusing the different modalities and compare their performances. Extensive experiments conducted on the Cresci '17 dataset demonstrate valuable advantages of our introduced approaches over state-of-the-art ones reaching Accuracy up to 99.98%.
Abstract（参考訳）: 全てのボットは悪意があるわけではないが、ほとんどのボットは誤報を広め、いくつかの問題(選挙など)に関する世論を操作する責任がある。そのため,ソーシャルスパムボットの早期発見が重要である。ソーシャルメディア上でボットを検出する方法が提案されているが、依然としてかなりの制限がある。例えば、既存の研究イニシアチブは依然として多数の機能を抽出し、従来の機械学習アルゴリズムをトレーニングしたり、GloVe埋め込みを使用してLSTMをトレーニングします。しかし、機能抽出はドメインの専門知識を必要とする退屈な手続きです。また、トランスを用いた言語モデルはLSTMよりも優れていることが証明されている。他のアプローチでは、大きなグラフを作成し、この方法で計算リソースのトレーニングとアクセスに何時間も要するグラフニューラルネットワークをトレーニングする。これらの制限に対処するため、ユーザーによるツイートのタイプと内容を表す3つのチャンネルのユーザ記述フィールドと画像のみを用いた最初の研究である。まず、デジタルDNA配列を作成し、3D画像に変換し、EfficientNet、AlexNet、VGG16などを含む視覚領域の事前訓練されたモデルを適用する。次に、ユーザ記述フィールドのテキスト表現を得るためにTwHIN-BERTを用い、画像モダリティの視覚表現を得るためにVGG16を用いるマルチモーダルアプローチを提案する。本稿では, 結合, ゲートマルチモーダルユニット, クロスモーダルアテンションの3つの異なる融合法を提案し, 異なるモダリティを融合させ, それらの性能を比較する。 Cresci '17データセットで実施された大規模な実験では、最先端のデータセットよりも99.98%まで精度が向上した。

関連論文リスト

Multi-modal Knowledge Distillation-based Human Trajectory Forecasting [35.060041571520024]
歩行者の軌道予測は、自律運転や移動ロボットナビゲーションといった様々な用途において重要である。このようなアプリケーションでは、カメラベースの知覚により、追加のモダリティ(人間のポーズ、テキスト)の抽出が可能になり、予測精度が向上する。そこで本研究では,多モードの知識蒸留フレームワークを提案する。多モードの知識蒸留を訓練した教師モデルから,限られたモダリティを持つ学生モデルを蒸留する。
論文参考訳（メタデータ） (2025-03-28T07:32:51Z)
VidBot: Learning Generalizable 3D Actions from In-the-Wild 2D Human Videos for Zero-Shot Robotic Manipulation [53.63540587160549]
VidBotは、WildのモノクルなRGBのみの人間ビデオから学習した3Dアベイランスを使って、ゼロショットロボット操作を可能にするフレームワークである。 VidBotは、人間の日常的なビデオを利用してロボットの学習をよりスケーラブルにする。
論文参考訳（メタデータ） (2025-03-10T10:04:58Z)
VLMine: Long-Tail Data Mining with Vision Language Models [18.412533708652102]
この研究は、ラベルなしデータのコーパス内の稀な例を識別する問題に焦点を当てている。本稿では,大規模視覚言語モデル(VLM)に含まれる知識を活用する,シンプルでスケーラブルなデータマイニング手法を提案する。私たちの実験は、ベースライン技術よりも大きな改善(10%から50%)を示しています。
論文参考訳（メタデータ） (2024-09-23T19:13:51Z)
Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。 COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文参考訳（メタデータ） (2024-05-27T17:59:56Z)
Rethinking Transformers Pre-training for Multi-Spectral Satellite Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文参考訳（メタデータ） (2024-03-08T16:18:04Z)
LMBot: Distilling Graph Knowledge into Language Model for Graph-less Deployment in Twitter Bot Detection [41.043975659303435]
グラフニューラルネットワーク(GNN)の知識を言語モデル(LM)に抽出する新しいボット検出フレームワークLMBotを提案する。グラフベースのデータセットでは、LMの出力はGNNの入力機能を提供し、ボットの検出と知識の抽出を反復的かつ相互に強化するプロセスでLMに戻すことができる。実験の結果,LMBotは4つのTwitterボット検出ベンチマークで最先端のパフォーマンスを実現していることがわかった。
論文参考訳（メタデータ） (2023-06-30T05:50:26Z)
Vision Learners Meet Web Image-Text Pairs [32.36188289972377]
本研究では,ノイズの多いWebソースと画像テキストのペアデータに対する自己教師付き事前学習について検討する。マスク付きトレーニング目標を用いたシングルモーダルトレーニングや,画像テキストコンストラシティブトレーニングを用いたマルチモーダルトレーニングなど,さまざまな手法を比較した。我々は、スケーラブルなWebソース画像テキストデータから学習する新しいビジュアル表現事前学習手法MUlti-modal Generator(MUG)を提案する。
論文参考訳（メタデータ） (2023-01-17T18:53:24Z)
Multi-scale Transformer Network with Edge-aware Pre-training for Cross-Modality MR Image Synthesis [52.41439725865149]
クロスモダリティ磁気共鳴(MR)画像合成は、与えられたモダリティから欠落するモダリティを生成するために用いられる。既存の(教師付き学習)手法は、効果的な合成モデルを訓練するために、多くのペア化されたマルチモーダルデータを必要とすることが多い。マルチスケールトランスフォーマーネットワーク(MT-Net)を提案する。
論文参考訳（メタデータ） (2022-12-02T11:40:40Z)
Multimodal Masked Autoencoders Learn Transferable Representations [127.35955819874063]
単純でスケーラブルなネットワークアーキテクチャであるM3AE(Multimodal Masked Autoencoder)を提案する。 M3AEは、マスク付きトークン予測により、視覚と言語データの両方の統一エンコーダを学習する。我々は,大規模な画像テキストデータセット上で訓練されたM3AEについて実証的研究を行い,M3AEが下流タスクによく伝達される一般化可能な表現を学習できることを見出した。
論文参考訳（メタデータ） (2022-05-27T19:09:42Z)
Identification of Twitter Bots based on an Explainable ML Framework: the US 2020 Elections Case Study [72.61531092316092]
本稿では,ラベル付きTwitterデータに基づくTwitterボット識別システムの設計に焦点をあてる。 Supervised Machine Learning (ML)フレームワークは、Extreme Gradient Boosting (XGBoost)アルゴリズムを用いて採用されている。また、MLモデルの予測を説明するためにShapley Additive Explanations (SHAP)をデプロイした。
論文参考訳（メタデータ） (2021-12-08T14:12:24Z)
RpBERT: A Text-image Relation Propagation-based BERT Model for Multimodal NER [4.510210055307459]
マルチモーダルなエンティティ認識(MNER)は、ツイート中のNERの精度を向上させるために画像を利用している。マルチモーダルBERTモデルにテキスト-画像関係の伝搬法を導入する。 MNERデータセットをトレーニングするためのマルチタスクアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-02-05T02:45:30Z)
Fine-Grained Vehicle Perception via 3D Part-Guided Visual Data Augmentation [77.60050239225086]
実画像中の車両に動的部品を付加した3次元自動車モデルによる効果的なトレーニングデータ生成プロセスを提案する。私達のアプローチは人間の相互作用なしで完全に自動です。 VUS解析用マルチタスクネットワークとVHI解析用マルチストリームネットワークを提案する。
論文参考訳（メタデータ） (2020-12-15T03:03:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。