論文の概要: AGSP-DSA: An Adaptive Graph Signal Processing Framework for Robust Multimodal Fusion with Dynamic Semantic Alignment
- arxiv url: http://arxiv.org/abs/2601.18589v1
- Date: Mon, 26 Jan 2026 15:35:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.903059
- Title: AGSP-DSA: An Adaptive Graph Signal Processing Framework for Robust Multimodal Fusion with Dynamic Semantic Alignment
- Title(参考訳): AGSP-DSA:動的セマンティックアライメントを用いたロバスト多モード核融合のための適応グラフ信号処理フレームワーク
- Authors: KV Karthikeya, Ashok Kumar Das, Shantanu Pal, Vivekananda Bhat K, Arun Sekar Rajasekaran,
- Abstract要約: 本稿では,動的セマンティックアライメントを用いた適応グラフ信号処理(AGSP DSA)フレームワークを提案する。
CMU-MOSEI、AVE、MM-IMDBを含む3つのベンチマークデータセットの実験結果は、AGSP-DSAが最先端として機能していることを示している。
- 参考スコア(独自算出の注目度): 18.39945426205332
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: In this paper, we introduce an Adaptive Graph Signal Processing with Dynamic Semantic Alignment (AGSP DSA) framework to perform robust multimodal data fusion over heterogeneous sources, including text, audio, and images. The requested approach uses a dual-graph construction to learn both intra-modal and inter-modal relations, spectral graph filtering to boost the informative signals, and effective node embedding with Multi-scale Graph Convolutional Networks (GCNs). Semantic aware attention mechanism: each modality may dynamically contribute to the context with respect to contextual relevance. The experimental outcomes on three benchmark datasets, including CMU-MOSEI, AVE, and MM-IMDB, show that AGSP-DSA performs as the state of the art. More precisely, it achieves 95.3% accuracy, 0.936 F1-score, and 0.924 mAP on CMU-MOSEI, improving MM-GNN by 2.6 percent in accuracy. It gets 93.4% accuracy and 0.911 F1-score on AVE and 91.8% accuracy and 0.886 F1-score on MM-IMDB, which demonstrate good generalization and robustness in the missing modality setting. These findings verify the efficiency of AGSP-DSA in promoting multimodal learning in sentiment analysis, event recognition and multimedia classification.
- Abstract(参考訳): 本稿では,動的セマンティックアライメントを用いた適応グラフ信号処理(AGSP DSA)フレームワークを提案する。
要求されたアプローチは、モーダル内関係とモーダル間関係の両方を学ぶためにデュアルグラフ構造、情報信号を高めるためのスペクトルグラフフィルタリング、マルチスケールグラフ畳み込みネットワーク(GCN)による効果的なノード埋め込みを使用する。
セマンティック・アウェアメント・メカニズム(Semantic aware attention mechanism): それぞれのモダリティは文脈関連性に関して動的に文脈に寄与する。
CMU-MOSEI、AVE、MM-IMDBを含む3つのベンチマークデータセットの実験結果は、AGSP-DSAが最先端として機能していることを示している。
より正確には、95.3%の精度、0.936のF1スコア、0.924のmAPをCMU-MOSEIで達成し、MM-GNNの精度は2.6%向上した。
AVEでは93.4%の精度、AVEでは0.911のF1スコア、MM-IMDBでは0.886のF1スコアが得られた。
これらの結果は、感情分析、事象認識、マルチメディア分類におけるマルチモーダル学習の促進におけるAGSP-DSAの有効性を検証する。
関連論文リスト
- Advanced Data Collection Techniques in Cloud Security: A Multi-Modal Deep Learning Autoencoder Approach [0.0]
本研究では,多数のデータソースとモダリティをマルチモーダルなディープラーニングオートエンコーダと統合することにより,クラウドセキュリティに革新的な手法を提案する。
提案設計では,MMDLA(Multi-Modal Deep Learning Autoencoder),ADAM(Adaptive Metric Learning)を用いた異常検出,ADADELTA,ADAGRAD,RMSPROP,Stacked Graph Transformer(SGT)の6つの深層学習モデルの優れた特徴を統合した。
論文 参考訳(メタデータ) (2025-11-26T17:10:54Z) - G-MSGINet: A Grouped Multi-Scale Graph-Involution Network for Contactless Fingerprint Recognition [20.458766184257147]
G-MSGINetは、接触レス指紋認識のための統一されたフレームワークである。
生の入力画像から直接、微妙な局所化とアイデンティティの埋め込みを共同で行う。
3つのベンチマークデータセットの大規模な実験は、G-MSGINetが97.0%から99.1%の範囲で0.83pm0.02$、ランク1の識別精度で一貫してF1スコアを達成していることを示している。
論文 参考訳(メタデータ) (2025-05-13T05:24:24Z) - Multimodal Sentiment Analysis on CMU-MOSEI Dataset using Transformer-based Models [0.0]
本研究は,CMU-MOSEIデータセットを用いたマルチモーダル感情分析を行う。
我々は、テキスト、オーディオ、視覚のモダリティを統合するために、早期融合を伴うトランスフォーマーベースのモデルを使用する。
このモデルは、97.87%の7クラス精度と0.9682 F1スコアで高い性能を達成している。
論文 参考訳(メタデータ) (2025-05-09T15:10:57Z) - Multimodality Helps Few-shot 3D Point Cloud Semantic Segmentation [61.91492500828508]
FS-PCS (Few-shot 3D point cloud segmentation) は、最小のサポートサンプルで新しいカテゴリを分割するモデルを一般化することを目的としている。
テキストラベルと潜在的に利用可能な2次元画像モダリティを利用したマルチモーダルFS-PCS構成を提案する。
トレーニングバイアスを軽減するため,テスト時間適応型クロスモーダル(TACC)技術を提案する。
論文 参考訳(メタデータ) (2024-10-29T19:28:41Z) - GCM-Net: Graph-enhanced Cross-Modal Infusion with a Metaheuristic-Driven Network for Video Sentiment and Emotion Analysis [2.012311338995539]
本稿では,発話からのマルチモーダルな文脈情報を活用し,メタヒューリスティックなアルゴリズムを用いて発話レベルの感情と感情予測を学習する新しい枠組みを提案する。
提案手法の有効性を示すため,我々は3つの顕著なマルチモーダル・ベンチマーク・データセットについて広範な評価を行った。
論文 参考訳(メタデータ) (2024-10-02T10:07:48Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。