論文の概要: M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention
- arxiv url: http://arxiv.org/abs/2601.14776v2
- Date: Sat, 24 Jan 2026 06:40:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.798904
- Title: M2I2HA: Multi-modal Object Detection Based on Intra- and Inter-Modal Hypergraph Attention
- Title(参考訳): M2I2HA:モード内およびモード間ハイパーグラフアテンションに基づくマルチモーダル物体検出
- Authors: Xiaofan Yang, Yubin Liu, Wei Pan, Guoqing Chu, Junming Zhang, Jie Zhao, Zhuoqi Man, Xuanming Cao,
- Abstract要約: 本稿では,M2I2HAと呼ばれるハイパーグラフ理論に基づくマルチモーダル知覚ネットワークを提案する。
我々のアーキテクチャにはハイパーグラフ内拡張モジュールが含まれており、各モダリティ内の大域的な多対多の高次関係をキャプチャする。
Inter-Hypergraph Fusionモジュールは、データソース間のコンフィグレーションと空間ギャップをブリッジすることで、クロスモーダル機能を調整、拡張、フューズする。
- 参考スコア(独自算出の注目度): 5.485819352754784
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in multi-modal detection have significantly improved detection accuracy in challenging environments (e.g., low light, overexposure). By integrating RGB with modalities such as thermal and depth, multi-modal fusion increases data redundancy and system robustness. However, significant challenges remain in effectively extracting task-relevant information both within and across modalities, as well as in achieving precise cross-modal alignment. While CNNs excel at feature extraction, they are limited by constrained receptive fields, strong inductive biases, and difficulty in capturing long-range dependencies. Transformer-based models offer global context but suffer from quadratic computational complexity and are confined to pairwise correlation modeling. Mamba and other State Space Models (SSMs), on the other hand, are hindered by their sequential scanning mechanism, which flattens 2D spatial structures into 1D sequences, disrupting topological relationships and limiting the modeling of complex higher-order dependencies. To address these issues, we propose a multi-modal perception network based on hypergraph theory called M2I2HA. Our architecture includes an Intra-Hypergraph Enhancement module to capture global many-to-many high-order relationships within each modality, and an Inter-Hypergraph Fusion module to align, enhance, and fuse cross-modal features by bridging configuration and spatial gaps between data sources. We further introduce a M2-FullPAD module to enable adaptive multi-level fusion of multi-modal enhanced features within the network, meanwhile enhancing data distribution and flow across the architecture. Extensive object detection experiments on multiple public datasets against baselines demonstrate that M2I2HA achieves state-of-the-art performance in multi-modal object detection tasks.
- Abstract(参考訳): マルチモーダル検出の最近の進歩は、挑戦的な環境(例えば、低照度、過剰露光)における検出精度を大幅に向上させた。
RGBを熱や深度といったモダリティと統合することにより、マルチモーダル融合はデータの冗長性とシステムの堅牢性を高める。
しかし、重要な課題は、モダリティ内およびモダリティ間のタスク関連情報を効果的に抽出し、正確なモダリティ間のアライメントを達成することである。
CNNは特徴抽出に優れていますが、制約された受容野、強い帰納バイアス、長距離依存関係のキャプチャの難しさによって制限されています。
トランスフォーマーベースのモデルは、グローバルコンテキストを提供するが、2次計算の複雑さに悩まされ、ペアワイズ相関モデリングに限られる。
一方、マンバや他の状態空間モデル(SSM)は、2次元空間構造を1次元配列に平坦化し、トポロジカルな関係を乱し、複雑な高次依存関係のモデリングを制限するシーケンシャルスキャン機構によって妨げられている。
これらの問題に対処するために,M2I2HAと呼ばれるハイパーグラフ理論に基づくマルチモーダル知覚ネットワークを提案する。
アーキテクチャには,各モード内の多対多の高次関係をキャプチャするハイパーグラフ内拡張モジュールと,データソース間の空間的ギャップと構成をブリッジすることで,モーダル特徴の整合,拡張,融合を行うハイパーグラフ間融合モジュールが含まれる。
さらに、M2-FullPADモジュールを導入し、ネットワーク内のマルチモーダル拡張機能の適応的マルチレベル融合を実現するとともに、アーキテクチャ全体のデータ分散とフローを向上する。
複数の公開データセットにおけるベースラインに対する広範囲なオブジェクト検出実験は、M2I2HAがマルチモーダルオブジェクト検出タスクにおいて最先端のパフォーマンスを達成することを示す。
関連論文リスト
- MM-DETR: An Efficient Multimodal Detection Transformer with Mamba-Driven Dual-Granularity Fusion and Frequency-Aware Modality Adapters [12.063966356953186]
マルチモーダルリモートセンシングオブジェクト検出は、困難条件下でより正確で堅牢な認識を実現することを目的としている。
注意に基づく、あるいは変形可能な畳み込み融合ブロックに依存する既存のアプローチは、依然としてパフォーマンスと軽量設計のバランスをとるのに苦労している。
マルチモーダルオブジェクト検出のための軽量かつ効率的なフレームワークMM-DETRを提案する。
論文 参考訳(メタデータ) (2025-11-29T07:23:01Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - FindRec: Stein-Guided Entropic Flow for Multi-Modal Sequential Recommendation [57.577843653775]
textbfFindRec (textbfFlexible unified textbfinformation textbfdisentanglement for multi-modal sequence textbfRecommendation)を提案する。
Stein kernel-based Integrated Information Coordination Module (IICM) は理論上、マルチモーダル特徴とIDストリーム間の分散一貫性を保証する。
マルチモーダル特徴を文脈的関連性に基づいて適応的にフィルタリング・結合するクロスモーダル・エキスパート・ルーティング機構。
論文 参考訳(メタデータ) (2025-07-07T04:09:45Z) - SM3Det: A Unified Model for Multi-Modal Remote Sensing Object Detection [79.58755811919366]
本稿では,リモートセンシングのためのマルチモーダルデータセットとマルチタスクオブジェクト検出(M2Det)という新しいタスクを提案する。
水平方向または指向方向の物体を、あらゆるセンサーから正確に検出するように設計されている。
この課題は、1)マルチモーダルモデリングの管理に関わるトレードオフ、2)マルチタスク最適化の複雑さに起因する。
論文 参考訳(メタデータ) (2024-12-30T02:47:51Z) - Robust Modality-incomplete Anomaly Detection: A Modality-instructive Framework with Benchmark [69.02666229531322]
モダリティ不完全産業異常検出(MIIAD)の先駆的研究を紹介する。
その結果,既存のMIAD手法はMIIADベンチでは性能が悪く,性能が著しく低下していることが判明した。
本稿では,新しい2段階のロバストモードアリティファジングと検出フレームwoRk(RADAR)を提案する。
論文 参考訳(メタデータ) (2024-10-02T16:47:55Z) - DMM: Disparity-guided Multispectral Mamba for Oriented Object Detection in Remote Sensing [8.530409994516619]
マルチスペクトル指向物体検出は、モーダル間およびモーダル内両方の相違により、課題に直面している。
本稿では,DMM(Disparity-guided Multispectral Mamba),DCFM(Disparity-guided Cross-modal Fusion Mamba)モジュール,MTA(Multiscale Target-aware Attention)モジュール,TPA(Target-Prior Aware)補助タスクからなるフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-11T02:09:59Z) - General-Purpose Multimodal Transformer meets Remote Sensing Semantic
Segmentation [35.100738362291416]
マルチモーダルAIは、特にセマンティックセグメンテーションのような複雑なタスクのために、補完的なデータソースを活用する。
汎用マルチモーダルネットワークの最近のトレンドは、最先端の性能を達成する大きな可能性を示している。
本稿では,3次元畳み込みを利用して重要なローカル情報をエンコードし,同時にモーダルな特徴を学習するUNet型モジュールを提案する。
論文 参考訳(メタデータ) (2023-07-07T04:58:34Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Weakly Aligned Feature Fusion for Multimodal Object Detection [52.15436349488198]
マルチモーダルデータはしばしば位置ずれの問題に悩まされます。つまり、イメージペアは厳密に一致していません。
この問題により、マルチモーダルな特徴を融合させることが難しくなり、畳み込みニューラルネットワーク(CNN)のトレーニングが難解になる。
本稿では、位置ずれ問題に対処するために、アライメント領域CNN(AR-CNN)と呼ばれる汎用マルチモーダル検出器を提案する。
論文 参考訳(メタデータ) (2022-04-21T02:35:23Z) - Bi-Bimodal Modality Fusion for Correlation-Controlled Multimodal
Sentiment Analysis [96.46952672172021]
Bi-Bimodal Fusion Network (BBFN) は、2対のモダリティ表現で融合を行う新しいエンドツーエンドネットワークである。
モデルは、モダリティ間の既知の情報不均衡により、2つのバイモーダルペアを入力として取る。
論文 参考訳(メタデータ) (2021-07-28T23:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。