論文の概要: Multimodal SAM-adapter for Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2509.10408v1
- Date: Fri, 12 Sep 2025 16:58:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.172091
- Title: Multimodal SAM-adapter for Semantic Segmentation
- Title(参考訳): セマンティックセグメンテーションのためのマルチモーダルSAM適応器
- Authors: Iacopo Curti, Pierluigi Zama Ramirez, Alioscia Petrelli, Luigi Di Stefano,
- Abstract要約: マルチモーダルなセマンティックセグメンテーションのためのSegment Anything Model(SAM)の機能を拡張する新しいフレームワークであるMM SAM-adapterを提案する。
DeLiVER、FMB、MUSESの3つの挑戦的なベンチマークに対して、MM SAM-adapterが最先端のパフォーマンスを提供するアプローチを評価した。
- 参考スコア(独自算出の注目度): 19.531901409555278
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Semantic segmentation, a key task in computer vision with broad applications in autonomous driving, medical imaging, and robotics, has advanced substantially with deep learning. Nevertheless, current approaches remain vulnerable to challenging conditions such as poor lighting, occlusions, and adverse weather. To address these limitations, multimodal methods that integrate auxiliary sensor data (e.g., LiDAR, infrared) have recently emerged, providing complementary information that enhances robustness. In this work, we present MM SAM-adapter, a novel framework that extends the capabilities of the Segment Anything Model (SAM) for multimodal semantic segmentation. The proposed method employs an adapter network that injects fused multimodal features into SAM's rich RGB features. This design enables the model to retain the strong generalization ability of RGB features while selectively incorporating auxiliary modalities only when they contribute additional cues. As a result, MM SAM-adapter achieves a balanced and efficient use of multimodal information. We evaluate our approach on three challenging benchmarks, DeLiVER, FMB, and MUSES, where MM SAM-adapter delivers state-of-the-art performance. To further analyze modality contributions, we partition DeLiVER and FMB into RGB-easy and RGB-hard subsets. Results consistently demonstrate that our framework outperforms competing methods in both favorable and adverse conditions, highlighting the effectiveness of multimodal adaptation for robust scene understanding. The code is available at the following link: https://github.com/iacopo97/Multimodal-SAM-Adapter.
- Abstract(参考訳): セマンティックセグメンテーション(Semantic segmentation、セマンティックセグメンテーション)は、自律運転、医療画像、ロボット工学の幅広い応用を伴うコンピュータビジョンにおける重要なタスクであり、ディープラーニングによって大きく進歩している。
しかし、現在のアプローチは、照明不足、閉塞、悪天候などの困難な状況に弱いままである。
これらの制限に対処するため、補助センサデータ(例えばLiDAR、赤外線)を統合するマルチモーダル手法が最近登場し、堅牢性を高める補完情報を提供している。
本研究では,マルチモーダルなセマンティックセグメンテーションのためのセグメンテーションモデル(SAM)の機能を拡張する新しいフレームワークMM SAM-adapterを提案する。
提案手法は,SAMのリッチRGB機能に融合したマルチモーダル機能を注入するアダプタネットワークを用いている。
この設計により、RGB特徴の強い一般化能力を保ちながら、補助的なモダリティを選択的に組み込むことができる。
その結果,MM SAM-adapter はマルチモーダル情報のバランスよく効率的な利用を実現する。
DeLiVER、FMB、MUSESの3つの挑戦的なベンチマークに対して、MM SAM-adapterが最先端のパフォーマンスを提供するアプローチを評価した。
さらに、モダリティの寄与を分析するために、DeLiVER と FMB を RGB-easy と RGB-hard のサブセットに分割する。
その結果,本フレームワークは良好な条件と悪い条件の両方で競合する手法より優れており,ロバストなシーン理解のためのマルチモーダル適応の有効性が明らかとなった。
コードは以下のリンクで入手できる。 https://github.com/iacopo97/Multimodal-SAM-Adapter。
関連論文リスト
- Segment Any RGB-Thermal Model with Language-aided Distillation [17.837670087342456]
RGB-Tセマンティックセグメンテーションのための強力なSAMをカスタマイズする新しいフレームワークSARTMを提案する。
我々のキーとなるアイデアはSAMの可能性を解き放ちつつ、RGB-Tデータペアのセマンティック理解モジュールを導入することです。
定量的および定性的な結果は、提案したSARTMが最先端のアプローチを著しく上回っていることを一貫して示している。
論文 参考訳(メタデータ) (2025-05-04T00:24:17Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Adapting Segment Anything Model to Multi-modal Salient Object Detection with Semantic Feature Fusion Guidance [15.435695491233982]
マルチモーダル・サリアン・オブジェクト検出(SOD)のためのSegment Anything Model(SAM)の強力な特徴表現とゼロショット一般化能力を探求し活用するための新しいフレームワークを提案する。
アンダーラインSAMとサブラインマンティックファウンダリナールファウンダリナールグダンクンダリナール(サマン)を併用して開発する。
画像エンコーダでは,マルチモーダルSAMをマルチモーダル情報に適用するためのマルチモーダルアダプタが提案されている。
論文 参考訳(メタデータ) (2024-08-27T13:47:31Z) - Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。
MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。
1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T03:45:40Z) - Multi-Scale and Detail-Enhanced Segment Anything Model for Salient Object Detection [58.241593208031816]
Segment Anything Model (SAM) は、強力なセグメンテーションと一般化機能を提供する視覚的基本モデルとして提案されている。
実物検出のためのMDSAM(Multi-scale and Detail-enhanced SAM)を提案する。
実験により,複数のSODデータセット上でのモデルの優れた性能が示された。
論文 参考訳(メタデータ) (2024-08-08T09:09:37Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。