論文の概要: FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention
- arxiv url: http://arxiv.org/abs/2601.17638v1
- Date: Sun, 25 Jan 2026 00:22:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.105292
- Title: FOCA: Multimodal Malware Classification via Hyperbolic Cross-Attention
- Title(参考訳): FOCA:双曲的クロスアテンションによるマルチモーダルマルウェア分類
- Authors: Nitin Choudhury, Bikrant Bikram Pratap Maurya, Orchid Chetia Phukan, Arun Balaji Buduru,
- Abstract要約: FOCAは、音声と視覚のモダリティを共同で活用するマルウェア分類の新しいフレームワークである。
FOCAはユニモーダルモデルより一貫して優れており、ユークリッドの多くのマルチモーダルベースラインを超え、既存の作品よりも最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 14.541961484756778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we introduce FOCA, a novel multimodal framework for malware classification that jointly leverages audio and visual modalities. Unlike conventional Euclidean-based fusion methods, FOCA is the first to exploit the intrinsic hierarchical relationships between audio and visual representations within hyperbolic space. To achieve this, raw binaries are transformed into both audio and visual representations, which are then processed through three key components: (i) a hyperbolic projection module that maps Euclidean embeddings into the Poincare ball, (ii) a hyperbolic cross-attention mechanism that aligns multimodal dependencies under curvature-aware constraints, and (iii) a Mobius addition-based fusion layer. Comprehensive experiments on two benchmark datasets-Mal-Net and CICMalDroid2020- show that FOCA consistently outperforms unimodal models, surpasses most Euclidean multimodal baselines, and achieves state-of-the-art performance over existing works.
- Abstract(参考訳): 本研究では,マルウェア分類のための新しいマルチモーダルフレームワークであるFOCAを紹介する。
従来のユークリッドベースの融合法とは異なり、FOCAは双曲空間内の音声と視覚的表現の間の固有の階層的関係を利用する最初の方法である。
これを実現するため、生のバイナリはオーディオと視覚の両方に変換され、3つの重要なコンポーネントを通して処理される。
i)ユークリッドの埋め込みをポインケア球にマッピングする双曲射影モジュール
(二)曲率を考慮した制約の下で多モード依存関係を整列する双曲的クロスアテンション機構、及び
三 Mobius添加系核融合層
Mal-NetとCICMalDroid2020という2つのベンチマークデータセットに関する総合的な実験によると、FOCAはユニモーダルモデルより一貫して優れており、ユークリッドのほとんどのマルチモーダルベースラインを超え、既存の作業よりも最先端のパフォーマンスを実現している。
関連論文リスト
- Multi-label Classification with Panoptic Context Aggregation Networks [61.82285737410154]
本稿では,多次幾何学的文脈を階層的に統合する新しいアプローチであるDeep Panoptic Context Aggregation Network(PanCAN)を紹介する。
PanCANは、ランダムウォークとアテンションメカニズムを組み合わせることで、各スケールで複数階の近傍関係を学習する。
NUS-WIDE、PASCAL VOC、2007、MS-COCOベンチマークの実験は、PanCANが一貫して競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-12-29T14:16:21Z) - Modality Alignment with Multi-scale Bilateral Attention for Multimodal Recommendation [9.91438130100011]
MambaRecは、ローカルな特徴アライメントとグローバルな分散正規化を統合する新しいフレームワークである。
DREAMモジュールは階層的関係とコンテキスト認識関連をキャプチャし、モーダル間セマンティックモデリングを改善する。
実世界のeコマースデータセットの実験によると、MambaRecは融合品質、一般化、効率で既存の手法より優れている。
論文 参考訳(メタデータ) (2025-09-11T02:52:26Z) - Progressive Semantic Residual Quantization for Multimodal-Joint Interest Modeling in Music Recommendation [6.790539226766362]
本稿では,2段階の新たなマルチモーダルレコメンデーションフレームワークを提案する。
最初の段階では、モーダル固有およびモーダルジョイントのセマンティックIDを生成する。
第2段階では、ユーザのマルチモーダルな関心をモデル化するために、マルチコードブックのクロスアテンションネットワークが設計されている。
論文 参考訳(メタデータ) (2025-08-28T02:16:57Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - MoCa: Modality-aware Continual Pre-training Makes Better Bidirectional Multimodal Embeddings [75.0617088717528]
MoCaは、トレーニング済みのVLMバックボーンを効果的な双方向埋め込みモデルに変換するためのフレームワークである。
MoCaは、MMEBとViDoRe-v2ベンチマークのパフォーマンスを継続的に改善し、新しい最先端の結果を達成する。
論文 参考訳(メタデータ) (2025-06-29T06:41:00Z) - MS-Occ: Multi-Stage LiDAR-Camera Fusion for 3D Semantic Occupancy Prediction [15.656771219382076]
MS-Occは、新しいマルチステージLiDARカメラ融合フレームワークである。
これはLiDARの幾何学的忠実度とカメラベースのセマンティックリッチネスを統合する。
実験の結果、MS-Occは連合(IoU)を32.1%、平均IoU(mIoU)を25.3%で割った。
論文 参考訳(メタデータ) (2025-04-22T13:33:26Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - ModalChorus: Visual Probing and Alignment of Multi-modal Embeddings via Modal Fusion Map [1.6570772838074355]
マルチモーダル埋め込みの視覚的探索とアライメントのための対話型システムであるModalChorusを設計する。
1) モーダル・フュージョン・マップ (MFM) を埋め込んだ新しい次元減少法である。
ケーススタディでは、ゼロショット分類からクロスモーダル検索と生成までのシナリオにおいて、ModalChorusが直感的に誤調整と効率的な再調整の発見を容易にすることが示されている。
論文 参考訳(メタデータ) (2024-07-17T04:49:56Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。