論文の概要: FusionSAM: Visual Multi-Modal Learning with Segment Anything
- arxiv url: http://arxiv.org/abs/2408.13980v2
- Date: Tue, 24 Jun 2025 02:21:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.25015
- Title: FusionSAM: Visual Multi-Modal Learning with Segment Anything
- Title(参考訳): FusionSAM: セグメンテーションによるビジュアルマルチモーダルラーニング
- Authors: Daixun Li, Weiying Xie, Mingxiang Cao, Yunke Wang, Yusi Zhang, Leyuan Fang, Yunsong Li, Chang Xu,
- Abstract要約: 本稿では,Segment Anything Model (SAM) をマルチモーダル画像セグメンテーションに導入する。
本稿では,LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
本手法は,マルチモーダル自動運転シナリオにおいてSAMとSAM2を著しく上回っている。
- 参考スコア(独自算出の注目度): 37.61598617788102
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal image fusion and semantic segmentation are critical for autonomous driving. Despite advancements, current models often struggle with segmenting densely packed elements due to a lack of comprehensive fusion features for guidance during training. While the Segment Anything Model (SAM) allows precise control during fine-tuning through its flexible prompting encoder, its potential remains largely unexplored in the context of multimodal segmentation for natural images. In this paper, we introduce SAM into multimodal image segmentation for the first time, proposing a novel framework that combines Latent Space Token Generation (LSTG) and Fusion Mask Prompting (FMP) modules. This approach transforms the training methodology for multimodal segmentation from a traditional black-box approach to a controllable, prompt-based mechanism. Specifically, we obtain latent space features for both modalities through vector quantization and embed them into a cross-attention-based inter-domain fusion module to establish long-range dependencies between modalities. We then use these comprehensive fusion features as prompts to guide precise pixel-level segmentation. Extensive experiments on multiple public datasets demonstrate that our method significantly outperforms SAM and SAM2 in multimodal autonomous driving scenarios, achieving an average improvement of 4.1$\%$ over the state-of-the-art method in segmentation mIoU, and the performance is also optimized in other multi-modal visual scenes.
- Abstract(参考訳): マルチモーダル画像融合とセマンティックセグメンテーションは自律運転に不可欠である。
進歩にもかかわらず、現在のモデルは訓練中にガイダンスのための総合的な融合機能が欠如しているため、密集した要素のセグメンテーションに苦慮することが多い。
SAM(Segment Anything Model)は、フレキシブルなプロンプトエンコーダを通じて微調整中の正確な制御を可能にするが、そのポテンシャルは自然画像のマルチモーダルセグメンテーションの文脈においてほとんど解明されていない。
本稿では,LSTG(Latent Space Token Generation)とFMP(Fusion Mask Prompting)モジュールを組み合わせた新しいフレームワークを提案する。
このアプローチは、マルチモーダルセグメンテーションのトレーニング方法論を、従来のブラックボックスアプローチから制御可能なプロンプトベースのメカニズムに変換する。
具体的には、ベクトル量子化により両方のモダリティの潜在空間特性を取得し、それらをクロスアテンションベースのドメイン間融合モジュールに埋め込んで、モダリティ間の長距離依存関係を確立する。
次に、これらの包括的融合機能を、正確なピクセルレベルのセグメンテーションを導くプロンプトとして使用する。
複数の公開データセットに対する大規模な実験により,本手法はマルチモーダル自動運転シナリオにおいてSAMとSAM2を著しく上回り,セグメンテーションmIoUにおける最先端手法よりも平均4.1$\%の改善を実現し,他のマルチモーダル視覚シーンにおいても性能が最適化されていることが示された。
関連論文リスト
- DSU-Net:An Improved U-Net Model Based on DINOv2 and SAM2 with Multi-scale Cross-model Feature Enhancement [7.9006143460465355]
本稿では,DINOv2によるSAM2用マルチスケール機能協調フレームワークを提案する。
コストのかかるトレーニングプロセスを必要とせず、カモフラージュ目標検出や有能なオブジェクト検出といった下流タスクにおいて、既存の最先端のメソオードを超越している。
論文 参考訳(メタデータ) (2025-03-27T06:08:24Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - MANet: Fine-Tuning Segment Anything Model for Multimodal Remote Sensing Semantic Segmentation [8.443065903814821]
本研究では,マルチモーダルリモートセマンティックセマンティックセマンティックセグメンテーションのための新しいマルチモーダルアダプタベースネットワーク(MANet)を提案する。
このアプローチのコアとなるのは、SAMのイメージエンコーダを微調整して、マルチモーダルデータに対するモデルの一般的な知識を効果的に活用するMultimodal Adapter(MMAdapter)の開発である。
この研究は、マルチモーダル核融合のための新しいネットワークを導入するだけでなく、SAMのDSM(Digital Surface Model)データによる強力な一般化能力も初めて示した。
論文 参考訳(メタデータ) (2024-10-15T00:52:16Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - SAM-REF: Introducing Image-Prompt Synergy during Interaction for Detail Enhancement in the Segment Anything Model [24.774935133996074]
軽量精細機を用いて画像とプロンプトを完全に統合する2段階精細化フレームワークを提案する。
我々のSAM-REFモデルは、効率を損なうことなくセグメンテーション品質に関するほとんどの指標において、最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2024-08-21T11:18:35Z) - Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。
MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。
1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T03:45:40Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Multi-interactive Feature Learning and a Full-time Multi-modality
Benchmark for Image Fusion and Segmentation [66.15246197473897]
多モード画像融合とセグメンテーションは、自律走行とロボット操作において重要な役割を果たす。
画像融合とtextbfSegmentation のための textbfMulti-textbfinteractive textbfFeature Learning アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-08-04T01:03:58Z) - Semantic-SAM: Segment and Recognize Anything at Any Granularity [83.64686655044765]
本稿では,任意の粒度でセグメンテーションと認識を可能にする汎用画像セグメンテーションモデルであるSemantic-SAMを紹介する。
複数のデータセットを3つの粒度に集約し、オブジェクトとパーツの分離した分類を導入する。
マルチグラニュラリティ機能を実現するために,各クリックで複数のレベルのマスクを生成できるマルチ選択学習方式を提案する。
論文 参考訳(メタデータ) (2023-07-10T17:59:40Z) - Learning Deep Multimodal Feature Representation with Asymmetric
Multi-layer Fusion [63.72912507445662]
本稿では,マルチモーダルな特徴を複数の層に融合する,コンパクトで効果的なフレームワークを提案する。
我々は、エンコーダ内のモダリティ固有のバッチ正規化層を単に維持するだけで、共有シングルネットワーク内でマルチモーダル機能を学習できることを検証する。
次に,マルチモーダルな特徴を段階的に活用できる双方向多層融合方式を提案する。
論文 参考訳(メタデータ) (2021-08-11T03:42:13Z) - CMF: Cascaded Multi-model Fusion for Referring Image Segmentation [24.942658173937563]
本稿では,自然言語表現によって記述された対象に対するセグメンテーションマスクの予測を目的とした画像セグメンテーション(RIS)の課題に対処する。
本稿では,マルチモーダル・フュージョン (CMF) モジュールを提案する。
4つのベンチマークデータセットによる実験結果から,本手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2021-06-16T08:18:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。