論文の概要: Segment Any RGB-Thermal Model with Language-aided Distillation
- arxiv url: http://arxiv.org/abs/2505.01950v1
- Date: Sun, 04 May 2025 00:24:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.349663
- Title: Segment Any RGB-Thermal Model with Language-aided Distillation
- Title(参考訳): 言語支援蒸留によるRGB熱モデルのセグメンテーション
- Authors: Dong Xing, Xianxun Zhu, Wei Zhou, Qika Lin, Hang Yang, Yuqing Wang,
- Abstract要約: RGB-Tセマンティックセグメンテーションのための強力なSAMをカスタマイズする新しいフレームワークSARTMを提案する。
我々のキーとなるアイデアはSAMの可能性を解き放ちつつ、RGB-Tデータペアのセマンティック理解モジュールを導入することです。
定量的および定性的な結果は、提案したSARTMが最先端のアプローチを著しく上回っていることを一貫して示している。
- 参考スコア(独自算出の注目度): 17.837670087342456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent Segment Anything Model (SAM) demonstrates strong instance segmentation performance across various downstream tasks. However, SAM is trained solely on RGB data, limiting its direct applicability to RGB-thermal (RGB-T) semantic segmentation. Given that RGB-T provides a robust solution for scene understanding in adverse weather and lighting conditions, such as low light and overexposure, we propose a novel framework, SARTM, which customizes the powerful SAM for RGB-T semantic segmentation. Our key idea is to unleash the potential of SAM while introduce semantic understanding modules for RGB-T data pairs. Specifically, our framework first involves fine tuning the original SAM by adding extra LoRA layers, aiming at preserving SAM's strong generalization and segmentation capabilities for downstream tasks. Secondly, we introduce language information as guidance for training our SARTM. To address cross-modal inconsistencies, we introduce a Cross-Modal Knowledge Distillation(CMKD) module that effectively achieves modality adaptation while maintaining its generalization capabilities. This semantic module enables the minimization of modality gaps and alleviates semantic ambiguity, facilitating the combination of any modality under any visual conditions. Furthermore, we enhance the segmentation performance by adjusting the segmentation head of SAM and incorporating an auxiliary semantic segmentation head, which integrates multi-scale features for effective fusion. Extensive experiments are conducted across three multi-modal RGBT semantic segmentation benchmarks: MFNET, PST900, and FMB. Both quantitative and qualitative results consistently demonstrate that the proposed SARTM significantly outperforms state-of-the-art approaches across a variety of conditions.
- Abstract(参考訳): 最近のSegment Anything Model(SAM)は、さまざまなダウンストリームタスクにわたる強力なインスタンスセグメンテーションパフォーマンスを示している。
しかしSAMはRGBデータのみに基づいて訓練されており、RGB-thermal (RGB-T) セマンティックセグメンテーションにのみ適用可能である。
RGB-Tは、低照度や過剰露光といった悪天候や照明条件の場面理解に堅牢なソリューションを提供するので、RGB-Tセマンティックセマンティックセマンティックセグメンテーションのために強力なSAMをカスタマイズする新しいフレームワークSARTMを提案する。
我々のキーとなるアイデアはSAMの可能性を解き放ちつつ、RGB-Tデータペアのセマンティック理解モジュールを導入することです。
具体的には、まず、SAMの強力な一般化と下流タスクのセグメンテーション機能を維持することを目的として、LoRA層を追加してオリジナルのSAMを微調整する。
次に,SARTMの学習指導として言語情報を紹介する。
クロスモーダルな不整合に対処するため,一般化能力を維持しつつ,モダリティ適応を効果的に実現するクロスモーダルな知識蒸留(CMKD)モジュールを導入する。
このセマンティックモジュールは、モダリティギャップの最小化を可能にし、セマンティックなあいまいさを緩和し、任意の視覚的条件下でのモダリティの組み合わせを容易にする。
さらに,SAMのセグメンテーションヘッドを調整し,セグメンテーションヘッドを付加することによりセグメンテーション性能を向上させる。
MFNET、PST900、FMBの3つのマルチモーダルなRGBTセマンティックセマンティックセマンティックセマンティクスベンチマークに対して、大規模な実験が行われた。
定量的および定性的な結果は、提案したSARTMが様々な条件で最先端のアプローチを著しく上回っていることを一貫して示している。
関連論文リスト
- KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。
具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。
また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文 参考訳(メタデータ) (2025-04-08T10:07:02Z) - Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance [20.104169359248232]
本稿では,RGB-サーマル知覚のための言語指導によるSAM2のポテンシャルを解放する新しいSAM2駆動型ハイブリッドインタラクションパラダイムを提案する。
ShiFNetは、公開ベンチマークで最先端のセグメンテーション性能を達成し、PST900で89.8%、FMBで67.8%に達した。
論文 参考訳(メタデータ) (2025-03-04T13:04:46Z) - Every SAM Drop Counts: Embracing Semantic Priors for Multi-Modality Image Fusion and Beyond [52.486290612938895]
本稿では,Segment Anything Model (SAM) のセグメンテーションモデルからのセグメンテーション知識を利用して,融合結果の質を向上し,下流タスク適応性を実現する手法を提案する。
具体的には、SAMから高レベルなセマンティック・セマンティック・セマンティック・セマンティック・セマンティック・アテンション(SPA)モジュールを抽出し、永続リポジトリを介してソース情報を効率的に保持する。
本手法は,実運用効率を維持しつつ,高品質な視覚結果と下流タスク適応性のバランスを実現する。
論文 参考訳(メタデータ) (2025-03-03T06:16:31Z) - Customize Segment Anything Model for Multi-Modal Semantic Segmentation with Mixture of LoRA Experts [17.6980007370549]
マルチモーダルなセマンティックセマンティックセマンティクスにセマンティクスモデル(SAM)を適用するための最初の試みを行う。
SAMの重量を凍結させながらMoE-LoRA層のみをトレーニングすることにより、SAMの強力な一般化とセグメンテーション能力は下流タスクに保存できる。
具体的には、モーダル間の不整合に対処するために、モーダル間の重み付き特徴を適応的に生成する新しいMoEルーティング戦略を提案する。
論文 参考訳(メタデータ) (2024-12-05T14:54:31Z) - Segment Anything with Multiple Modalities [61.74214237816402]
我々は,異なるセンサスイートによる堅牢で拡張されたセグメンテーションのために,クロスモーダルおよびマルチモーダル処理をサポートするMM-SAMを開発した。
MM-SAMは、教師なしのクロスモーダル転送と弱い教師付きマルチモーダル融合という、2つの重要な設計を特徴としている。
1)単一モーダル処理のための多様な非RGBセンサへの適応,2)センサ融合によるマルチモーダルデータの相乗的処理,3)異なる下流タスクのためのマスクフリートレーニング,の3つの課題に対処する。
論文 参考訳(メタデータ) (2024-08-17T03:45:40Z) - AlignSAM: Aligning Segment Anything Model to Open Context via Reinforcement Learning [61.666973416903005]
Segment Anything Model (SAM)は、オープンワールドシナリオにおいて、プロンプトのガイダンスによって、その印象的な一般化機能を実証した。
オープンコンテキストにSAMをアライメントするための自動プロンプトのための新しいフレームワークAlignSAMを提案する。
論文 参考訳(メタデータ) (2024-06-01T16:21:39Z) - SAM-Assisted Remote Sensing Imagery Semantic Segmentation with Object
and Boundary Constraints [9.238103649037951]
本稿では,SAM生成オブジェクト(SGO)とSAM生成境界(SGB)という2つの新しい概念を活用することにより,SAMの生出力を活用するフレームワークを提案する。
本稿では,SGOのコンテンツ特性を考慮し,セマンティックな情報を持たないセグメンテーション領域を活用するために,オブジェクト整合性の概念を導入する。
境界損失は、モデルが対象の境界情報に注意を向けることによって、SGBの特徴的な特徴に重きを置いている。
論文 参考訳(メタデータ) (2023-12-05T03:33:47Z) - Stable Segment Anything Model [79.9005670886038]
SAM(Segment Anything Model)は、高品質なプロンプトが与えられた場合、顕著に迅速なセグメンテーションを実現する。
本稿では,SAMのセグメンテーション安定性について,多様なプロンプト特性のスペクトルにわたって包括的解析を行った。
1)SAMのセグメンテーション安定性を広範囲に改善し,2)SAMの強力なセグメンテーション効率と一般化を維持した。
論文 参考訳(メタデータ) (2023-11-27T12:51:42Z) - Complementary Random Masking for RGB-Thermal Semantic Segmentation [63.93784265195356]
RGB-熱的セマンティックセグメンテーションは、悪天候や照明条件における信頼性の高いセマンティックセマンティックセマンティック理解を実現するための潜在的ソリューションである。
本稿では,1)RGB-T画像の相補的ランダムマスキング戦略,2)クリーンモードとマスク入力モードの自己蒸留損失を提案する。
3つのRGB-Tセマンティックセマンティックセグメンテーションベンチマークで最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-30T13:57:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。