Fugu-MT 論文翻訳(概要): Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

論文の概要: Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation

arxiv url: http://arxiv.org/abs/2404.04256v2
Date: Thu, 12 Sep 2024 20:21:34 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-18 02:35:35.508409
Title: Sigma: Siamese Mamba Network for Multi-Modal Semantic Segmentation
Title（参考訳）: Sigma: マルチモーダルセマンティックセマンティックセグメンテーションのためのSamese Mamba Network
Authors: Zifu Wan, Pingping Zhang, Yuhao Wang, Silong Yong, Simon Stepputtis, Katia Sycara, Yaqi Xie,
Abstract要約: 先進マンバを用いたマルチモーダルセマンティックセマンティックセグメンテーションのためのシームズ・マンバネットワークであるSigmaを紹介する。シームズエンコーダを用いて,マンバをベースとした核融合機構を革新することにより,様々なモーダルから重要な情報を効果的に選択する。提案手法は, RGB-Thermal と RGB-Depth のセマンティックセマンティックセグメンテーションタスクに対して厳密に評価する。
参考スコア（独自算出の注目度）: 16.298890431384564
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multi-modal semantic segmentation significantly enhances AI agents' perception and scene understanding, especially under adverse conditions like low-light or overexposed environments. Leveraging additional modalities (X-modality) like thermal and depth alongside traditional RGB provides complementary information, enabling more robust and reliable prediction. In this work, we introduce Sigma, a Siamese Mamba network for multi-modal semantic segmentation utilizing the advanced Mamba. Unlike conventional methods that rely on CNNs, with their limited local receptive fields, or Vision Transformers (ViTs), which offer global receptive fields at the cost of quadratic complexity, our model achieves global receptive fields with linear complexity. By employing a Siamese encoder and innovating a Mamba-based fusion mechanism, we effectively select essential information from different modalities. A decoder is then developed to enhance the channel-wise modeling ability of the model. Our proposed method is rigorously evaluated on both RGB-Thermal and RGB-Depth semantic segmentation tasks, demonstrating its superiority and marking the first successful application of State Space Models (SSMs) in multi-modal perception tasks. Code is available at https://github.com/zifuwan/Sigma.
Abstract（参考訳）: マルチモーダルセマンティックセグメンテーションはAIエージェントの認識とシーン理解を大幅に強化する。従来のRGBと並行して熱や深度といった追加のモダリティ(X-モダリティ)を活用することで、より堅牢で信頼性の高い予測が可能になる。本研究では,先進マンバを用いたマルチモーダルセマンティックセマンティックセグメンテーションのためのシームズ・マンバネットワークであるSigmaを紹介する。局所受容場に制限がある従来のCNNや、2次複雑性の犠牲で世界受容場を提供するビジョントランスフォーマ(ViT)とは異なり、我々のモデルは線形複雑度で世界受容場を実現する。シームズエンコーダを用いて,マンバをベースとした核融合機構を革新することにより,異なるモーダルから重要な情報を効果的に選択する。次にデコーダを開発し、モデルのチャネルワイド・モデリング能力を向上する。提案手法はRGB-ThermalとRGB-Depthのセマンティックセマンティックセグメンテーションタスクにおいて厳密に評価され,その優位性を実証し,マルチモーダル認識タスクにおけるステートスペースモデル(SSM)の初成功例を示す。コードはhttps://github.com/zifuwan/Sigma.comで入手できる。

関連論文リスト

An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
Harmonizing Visual Representations for Unified Multimodal Understanding and Generation [53.01486796503091]
我々は,共有MARエンコーダによる理解と生成タスクを調和させる統合自己回帰フレームワークであるemphHarmonを提案する。 HarmonはGenEval、MJHQ30K、WISEベンチマークで最先端の画像生成結果を達成する。
論文参考訳（メタデータ） (2025-03-27T20:50:38Z)
M$^3$amba: CLIP-driven Mamba Model for Multi-modal Remote Sensing Classification [23.322598623627222]
M$3$ambaは、マルチモーダル融合のための新しいエンドツーエンドのCLIP駆動のMambaモデルである。異なるモダリティの包括的セマンティック理解を実現するために,CLIP駆動型モダリティ固有アダプタを提案する。実験の結果、M$3$ambaは最先端の手法と比較して平均5.98%の性能向上が見られた。
論文参考訳（メタデータ） (2025-03-09T05:06:47Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
Unsupervised Modality Adaptation with Text-to-Image Diffusion Models for Semantic Segmentation [54.96563068182733]
セグメンテーションタスクのためのテキスト・ツー・イメージ拡散モデル(MADM)を用いたモダリティ適応を提案する。 MADMは、広範囲な画像とテキストのペアで事前訓練されたテキストと画像の拡散モデルを使用して、モデルの相互モダリティ能力を向上する。我々は,MADMが画像から深度,赤外線,イベントのモダリティといった様々なモダリティタスクにまたがって,最先端の適応性能を実現することを示す。
論文参考訳（メタデータ） (2024-10-29T03:49:40Z)
MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文参考訳（メタデータ） (2024-10-15T00:52:16Z)
Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文参考訳（メタデータ） (2024-08-27T13:47:31Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
Mamba-in-Mamba: Centralized Mamba-Cross-Scan in Tokenized Mamba Model for Hyperspectral Image Classification [4.389334324926174]
本研究では、このタスクにステートスペースモデル(SSM)をデプロイする最初の試みである、HSI分類のための革新的なMamba-in-Mamba(MiM)アーキテクチャを紹介する。 MiMモデルには,1)イメージをシーケンスデータに変換する新しい集中型Mamba-Cross-Scan(MCS)機構,2)Tokenized Mamba(T-Mamba)エンコーダ,3)Weighted MCS Fusion(WMF)モジュールが含まれる。 3つの公開HSIデータセットによる実験結果から,本手法は既存のベースラインや最先端アプローチよりも優れていることが示された。
論文参考訳（メタデータ） (2024-05-20T13:19:02Z)
Revisiting Multi-modal Emotion Learning with Broad State Space Models and Probability-guidance Fusion [14.14051929942914]
我々は,長距離文脈意味情報を特徴展開段階において抽出し,特徴融合段階においてモーダル間意味情報の一貫性を最大化するべきであると論じる。近年の状態空間モデル (SSM) に着想を得たBroad Mambaを提案する。提案手法は,長距離コンテキストをモデル化する場合に,Transformerの計算限界やメモリ制限を克服できることを示す。
論文参考訳（メタデータ） (2024-04-27T10:22:03Z)
Noise-powered Multi-modal Knowledge Graph Representation Framework [52.95468915728721]
マルチモーダル・プレトレーニングの台頭は、統合されたマルチモーダル知識グラフ表現学習フレームワークの必要性を強調している。モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。提案手法は10個のデータセットにまたがってSOTA性能を実現し,その汎用性を実証する。
論文参考訳（メタデータ） (2024-03-11T15:48:43Z)
Large AI Model Empowered Multimodal Semantic Communications [48.73159237649128]
本稿では,Large AI Model-based Multimodal SC (LAMMSC) フレームワークを提案する。まず、条件付きマルチモーダルアライメント(MMA)を提案し、マルチモーダルデータと非モーダルデータ間の変換を可能にする。次に、パーソナライズされたLLMベースの知識ベース(LKB)を提案し、ユーザがパーソナライズされたセマンティック抽出やリカバリを行うことができる。最後に,CGE(Generative Adversarial Network-based Channel Estimation)を用いて,無線チャネルの状態情報を推定する。
論文参考訳（メタデータ） (2023-09-03T19:24:34Z)
CoMAE: Single Model Hybrid Pre-training on Small-Scale RGB-D Datasets [50.6643933702394]
本稿では,RGBと深度変調のための単一モデル自己教師型ハイブリッド事前学習フレームワークについて述べる。我々のCoMAEは、コントラスト学習とマスク画像モデリングという2つの一般的な自己教師付き表現学習アルゴリズムを統合するためのカリキュラム学習戦略を提示している。
論文参考訳（メタデータ） (2023-02-13T07:09:45Z)
HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文参考訳（メタデータ） (2023-01-18T10:00:59Z)
A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文参考訳（メタデータ） (2020-07-19T22:50:20Z)
Deep Autoencoding Topic Model with Scalable Hybrid Bayesian Inference [55.35176938713946]
我々は、ガンマ分布の階層構造を用いて、その多確率層生成ネットワークを構築するディープ・オートエンコーディング・トピック・モデル(DATM)を開発した。 Weibull上向き変分エンコーダを提案する。このエンコーダは深層ニューラルネットワークを介して情報を上向きに伝播し,次いで下向き生成モデルを提案する。大規模コーパス上での教師なしおよび教師なしの学習タスクにおいて,モデルの有効性とスケーラビリティを実証した。
論文参考訳（メタデータ） (2020-06-15T22:22:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。