論文の概要: A Split-Window Transformer for Multi-Model Sequence Spammer Detection using Multi-Model Variational Autoencoder
- arxiv url: http://arxiv.org/abs/2502.16483v1
- Date: Sun, 23 Feb 2025 07:53:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:56:09.130410
- Title: A Split-Window Transformer for Multi-Model Sequence Spammer Detection using Multi-Model Variational Autoencoder
- Title(参考訳): マルチモデル変分オートエンコーダを用いたマルチモデル系列スパマー検出用スプリット・ウィンドウ変換器
- Authors: Zhou Yang, Yucai Pang, Hongbo Yin, Yunpeng Xiao,
- Abstract要約: 本稿では,MS$2$Dformerと呼ばれる新しいトランスフォーマーを提案する。
マルチモーダル変分オートエンコーダ(MVAE)に基づくユーザ行動トークン化アルゴリズムの設計
公開データセットで事前トレーニングされたMS$2$Dformerのパフォーマンスは、これまでの最先端をはるかに上回っている。
- 参考スコア(独自算出の注目度): 4.738887010407782
- License:
- Abstract: This paper introduces a new Transformer, called MS$^2$Dformer, that can be used as a generalized backbone for multi-modal sequence spammer detection. Spammer detection is a complex multi-modal task, thus the challenges of applying Transformer are two-fold. Firstly, complex multi-modal noisy information about users can interfere with feature mining. Secondly, the long sequence of users' historical behaviors also puts a huge GPU memory pressure on the attention computation. To solve these problems, we first design a user behavior Tokenization algorithm based on the multi-modal variational autoencoder (MVAE). Subsequently, a hierarchical split-window multi-head attention (SW/W-MHA) mechanism is proposed. The split-window strategy transforms the ultra-long sequences hierarchically into a combination of intra-window short-term and inter-window overall attention. Pre-trained on the public datasets, MS$^2$Dformer's performance far exceeds the previous state of the art. The experiments demonstrate MS$^2$Dformer's ability to act as a backbone.
- Abstract(参考訳): 本稿では,MS$^2$Dformerと呼ばれる新しいトランスフォーマーを紹介し,マルチモーダルシーケンススパマー検出のための一般化バックボーンとして使用できる。
スパマー検出は複雑なマルチモーダルタスクであるため、Transformerを適用する際の課題は2つある。
第一に、ユーザに関する複雑なマルチモーダルノイズ情報は、機能マイニングに干渉することができる。
第二に、ユーザの過去の行動の長いシーケンスは、注意計算に大きなGPUメモリ圧力を与える。
これらの問題を解決するために,まず,マルチモーダル変分オートエンコーダ(MVAE)に基づくユーザ行動トークン化アルゴリズムを設計する。
その後、階層型分割ウィンドウマルチヘッドアテンション(SW/W-MHA)機構を提案する。
分割ウィンドウ戦略は、超長いシーケンスを階層的に、ウィンドウ内短期とウィンドウ間全体的な注意の組み合わせに変換する。
公開データセットで事前トレーニングされたMS$^2$Dformerのパフォーマンスは、これまでの最先端よりもはるかに高い。
実験ではMS$^2$Dformerがバックボーンとして機能することを示した。
関連論文リスト
- PRformer: Pyramidal Recurrent Transformer for Multivariate Time Series Forecasting [82.03373838627606]
Transformerアーキテクチャにおける自己保持機構は、時系列予測において時間順序を符号化するために位置埋め込みを必要とする。
この位置埋め込みへの依存は、トランスフォーマーの時間的シーケンスを効果的に表現する能力を制限している、と我々は主張する。
本稿では,Prepreを標準的なTransformerエンコーダと統合し,様々な実世界のデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2024-08-20T01:56:07Z) - Masked Graph Learning with Recurrent Alignment for Multimodal Emotion Recognition in Conversation [12.455034591553506]
対話におけるマルチモーダル感情認識(MERC)は、世論監視、インテリジェントな対話ロボット、その他の分野に適用することができる。
従来の作業では、マルチモーダル融合前のモーダル間アライメントプロセスとモーダル内ノイズ情報を無視していた。
我々は,MGLRA(Masked Graph Learning with Recursive Alignment)と呼ばれる新しい手法を開発し,この問題に対処した。
論文 参考訳(メタデータ) (2024-07-23T02:23:51Z) - Hyper-Transformer for Amodal Completion [82.4118011026855]
アモーダルオブジェクト補完は、可視セグメントと背景情報に基づいてオブジェクトの見えない部分を予測する複雑なタスクである。
我々はHyper-Transformer Amodal Network(H-TAN)と呼ばれる新しいフレームワークを紹介する。
このフレームワークは、動的畳み込みヘッドを備えたハイパートランスを用いて、形状の事前を直接学習し、アモーダルマスクを正確に予測する。
論文 参考訳(メタデータ) (2024-05-30T11:11:54Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Multimodal Transformer With a Low-Computational-Cost Guarantee [14.852842445363505]
Low-Cost Multimodal Transformer (LoCoMT) は、トレーニング中の計算コストを低減し、性能損失を最小限に抑えることを目的とした、新しいマルチモーダルアテンション機構である。
LoCoMTは柔軟にマルチモーダル信号を制御でき、理論上既存のマルチモーダルトランスフォーマーの変種と比較して計算コストを削減できる。
論文 参考訳(メタデータ) (2024-02-23T05:09:35Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - MS-DETR: Multispectral Pedestrian Detection Transformer with Loosely Coupled Fusion and Modality-Balanced Optimization [43.04788370184486]
ミスアライメントとモダリティの不均衡は 多スペクトル歩行者検出において 最も重要な問題です
MS-DETRは2つのモダリティ固有のバックボーンとトランスフォーマーエンコーダで構成され、その後マルチモーダルトランスフォーマーデコーダが続く。
我々のエンドツーエンドのMS-DETRは、挑戦的なKAIST、CVC-14、LLVIPベンチマークデータセットよりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-02-01T07:45:10Z) - Cluster-Former: Clustering-based Sparse Transformer for Long-Range
Dependency Encoding [90.77031668988661]
Cluster-Formerはクラスタリングベースの新しいスパーストランスであり、チャンクされたシーケンスにまたがって注意を向ける。
提案されたフレームワークは、Sliding-Window LayerとCluster-Former Layerの2つのユニークなタイプのTransformer Layerにピボットされている。
実験によると、Cluster-Formerはいくつかの主要なQAベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-09-13T22:09:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。