論文の概要: Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning
- arxiv url: http://arxiv.org/abs/2602.00701v1
- Date: Sat, 31 Jan 2026 12:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.344285
- Title: Cross-Modal Binary Attention: An Energy-Efficient Fusion Framework for Audio-Visual Learning
- Title(参考訳): クロスモーダルバイナリアテンション:オーディオ・ビジュアル・ラーニングのためのエネルギー効率の良い融合フレームワーク
- Authors: Mohamed Saleh, Zahra Ahmadi,
- Abstract要約: CMQKAは、効率的なバイナリ演算によって線形O(N)複雑性を実現する新しいメカニズムである。
階層構造を持つエネルギー効率の良いマルチモーダル融合フレームワークであるSNNergyを提案する。
- 参考スコア(独自算出の注目度): 4.010598744735379
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Effective multimodal fusion requires mechanisms that can capture complex cross-modal dependencies while remaining computationally scalable for real-world deployment. Existing audio-visual fusion approaches face a fundamental trade-off: attention-based methods effectively model cross-modal relationships but incur quadratic computational complexity that prevents hierarchical, multi-scale architectures, while efficient fusion strategies rely on simplistic concatenation that fails to extract complementary cross-modal information. We introduce CMQKA, a novel cross-modal fusion mechanism that achieves linear O(N) complexity through efficient binary operations, enabling scalable hierarchical fusion previously infeasible with conventional attention. CMQKA employs bidirectional cross-modal Query-Key attention to extract complementary spatiotemporal features and uses learnable residual fusion to preserve modality-specific characteristics while enriching representations with cross-modal information. Building upon CMQKA, we present SNNergy, an energy-efficient multimodal fusion framework with a hierarchical architecture that processes inputs through progressively decreasing spatial resolutions and increasing semantic abstraction. This multi-scale fusion capability allows the framework to capture both local patterns and global context across modalities. Implemented with event-driven binary spike operations, SNNergy achieves remarkable energy efficiency while maintaining fusion effectiveness and establishing new state-of-the-art results on challenging audio-visual benchmarks, including CREMA-D, AVE, and UrbanSound8K-AV, significantly outperforming existing multimodal fusion baselines. Our framework advances multimodal fusion by introducing a scalable fusion mechanism that enables hierarchical cross-modal integration with practical energy efficiency for real-world audio-visual intelligence systems.
- Abstract(参考訳): 効果的にマルチモーダル融合を行うには、複雑な相互依存を捕捉する機構が必要であるが、実世界の展開には計算にスケーラブルなままである。
注意に基づく手法は、効果的にクロスモーダルな関係をモデル化するが、階層的かつマルチスケールなアーキテクチャを阻止する2次計算の複雑さが不正確なのに対して、効率的な融合戦略は相補的なクロスモーダルな情報を抽出するのに失敗する単純な結合に依存している。
CMQKAは、効率の良いバイナリ演算により線形O(N)複雑性を実現する、新しいクロスモーダル核融合機構であり、従来は注目されなかったスケーラブルな階層核融合を実現する。
CMQKAは双方向のクロスモーダルクエリキー・アテンションを用いて補完的な時空間的特徴を抽出し、学習可能な残差融合を用いてモダリティ固有の特徴を保存し、クロスモーダル情報で表現を豊かにする。
CMQKA上に構築したSNNergyは,空間分解能の漸減とセマンティック抽象化の増大により入力を処理する階層構造を持つエネルギー効率の高い多モード融合フレームワークである。
このマルチスケールの融合機能により、フレームワークは局所パターンとグローバルコンテキストの両方をモダリティでキャプチャできる。
イベント駆動のバイナリスパイク操作により、SNNergyは、融合効率を維持しながら、顕著なエネルギー効率を実現し、CREMA-D、AVE、UrbanSound8K-AVといった挑戦的なオーディオ視覚ベンチマークにおける新しい最先端結果を確立し、既存のマルチモーダル核融合ベースラインを著しく上回っている。
本フレームワークは,実世界の音声・視覚情報システムにおいて,階層的相互モーダル統合と実用的なエネルギー効率の両立を可能にするスケーラブルな融合機構を導入することにより,マルチモーダル融合を推し進める。
関連論文リスト
- MMMamba: A Versatile Cross-Modal In Context Fusion Framework for Pan-Sharpening and Zero-Shot Image Enhancement [29.94979992704961]
パンシャーピングは高分解能マルチスペクトル(HRMS)画像の生成を目的として,高分解能パンクロマティック(PAN)画像とそれに対応する低分解能マルチスペクトル(MS)画像を統合する。
従来のCNNベースの手法は、チャネルワイズと固定畳み込み演算子との結合に依存している。
パンシャーピングのためのクロスモーダルなインコンテキスト融合フレームワークであるMMMambaを提案する。
論文 参考訳(メタデータ) (2025-12-17T10:07:09Z) - MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。
NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。
さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文 参考訳(メタデータ) (2025-10-15T16:25:18Z) - Gated Recursive Fusion: A Stateful Approach to Scalable Multimodal Transformers [0.0]
Gated Recurrent Fusion(GRF)は、線形にスケーラブルで再帰的なパイプライン内で、モーダル間注目のパワーをキャプチャする新しいアーキテクチャである。
我々の研究は、強力でスケーラブルなマルチモーダル表現学習のための堅牢で効率的なパラダイムを提示している。
論文 参考訳(メタデータ) (2025-07-01T09:33:38Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。
異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。
実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文 参考訳(メタデータ) (2025-03-09T05:06:47Z) - Joint Multimodal Transformer for Emotion Recognition in the Wild [49.735299182004404]
マルチモーダル感情認識(MMER)システムは、通常、単調なシステムよりも優れている。
本稿では,キーベースのクロスアテンションと融合するために,ジョイントマルチモーダルトランス (JMT) を利用するMMER法を提案する。
論文 参考訳(メタデータ) (2024-03-15T17:23:38Z) - Computation and Parameter Efficient Multi-Modal Fusion Transformer for
Cued Speech Recognition [48.84506301960988]
Cued Speech (CS) は、聴覚障害者が使用する純粋視覚符号化法である。
自動CS認識(ACSR)は、音声の視覚的手がかりをテキストに書き起こそうとする。
論文 参考訳(メタデータ) (2024-01-31T05:20:29Z) - Unified Multi-modal Unsupervised Representation Learning for
Skeleton-based Action Understanding [62.70450216120704]
教師なしの事前訓練は骨格に基づく行動理解において大きな成功を収めた。
我々はUmURLと呼ばれる統一マルチモーダル非教師なし表現学習フレームワークを提案する。
UmURLは効率的な早期融合戦略を利用して、マルチモーダル機能を単一ストリームで共同でエンコードする。
論文 参考訳(メタデータ) (2023-11-06T13:56:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。