論文の概要: Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance
- arxiv url: http://arxiv.org/abs/2503.02581v1
- Date: Tue, 04 Mar 2025 13:04:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:13:47.911505
- Title: Unveiling the Potential of Segment Anything Model 2 for RGB-Thermal Semantic Segmentation with Language Guidance
- Title(参考訳): 言語指導によるRGB熱セマンティックセマンティックセマンティックセマンティックセマンティックセマンティックスのためのセグメンテーションモデル2の可能性
- Authors: Jiayi Zhao, Fei Teng, Kai Luo, Guoqiang Zhao, Zhiyong Li, Xu Zheng, Kailun Yang,
- Abstract要約: 本稿では,RGB-サーマル知覚のための言語指導によるSAM2のポテンシャルを解放する新しいSAM2駆動型ハイブリッドインタラクションパラダイムを提案する。
ShiFNetは、公開ベンチマークで最先端のセグメンテーション性能を達成し、PST900で89.8%、FMBで67.8%に達した。
- 参考スコア(独自算出の注目度): 20.104169359248232
- License:
- Abstract: The perception capability of robotic systems relies on the richness of the dataset. Although Segment Anything Model 2 (SAM2), trained on large datasets, demonstrates strong perception potential in perception tasks, its inherent training paradigm prevents it from being suitable for RGB-T tasks. To address these challenges, we propose SHIFNet, a novel SAM2-driven Hybrid Interaction Paradigm that unlocks the potential of SAM2 with linguistic guidance for efficient RGB-Thermal perception. Our framework consists of two key components: (1) Semantic-Aware Cross-modal Fusion (SACF) module that dynamically balances modality contributions through text-guided affinity learning, overcoming SAM2's inherent RGB bias; (2) Heterogeneous Prompting Decoder (HPD) that enhances global semantic information through a semantic enhancement module and then combined with category embeddings to amplify cross-modal semantic consistency. With 32.27M trainable parameters, SHIFNet achieves state-of-the-art segmentation performance on public benchmarks, reaching 89.8% on PST900 and 67.8% on FMB, respectively. The framework facilitates the adaptation of pre-trained large models to RGB-T segmentation tasks, effectively mitigating the high costs associated with data collection while endowing robotic systems with comprehensive perception capabilities. The source code will be made publicly available at https://github.com/iAsakiT3T/SHIFNet.
- Abstract(参考訳): ロボットシステムの知覚能力は、データセットの豊かさに依存している。
大規模データセットに基づいてトレーニングされたSegment Anything Model 2 (SAM2)は、知覚タスクに強い知覚能力を示すが、その固有のトレーニングパラダイムは、RGB-Tタスクに適合しない。
このような課題に対処するため,本研究では,SAM2 によるハイブリッドインタラクションパラダイムである ShiFNet を提案する。
本フレームワークは,(1) セマンティック・アウェア・クロスモーダル・フュージョン(SACF, Semantic-Aware Cross-modal Fusion)モジュールと,(2) SAM2 固有の RGB バイアスを克服し,テキスト誘導親和性学習によるモダリティコントリビューションを動的にバランスさせるモジュール,(2) セマンティックエンハンスメントモジュールを通じてグローバルなセマンティック情報を強化するヘテロジニアス・プロンプティング・デコーダ(HPD)から構成される。
32.27Mのトレーニング可能なパラメータを持つShiFNetは、公開ベンチマークで最先端のセグメンテーション性能を達成し、それぞれPST900で89.8%、FMBで67.8%に達した。
このフレームワークは、RGB-Tセグメンテーションタスクへの事前学習された大規模モデルの適応を容易にし、包括的知覚能力を持つロボットシステムを提供しながら、データ収集に関連する高コストを効果的に軽減する。
ソースコードはhttps://github.com/iAsakiT3T/SHIFNetで公開されている。
関連論文リスト
- Dual Mutual Learning Network with Global-local Awareness for RGB-D Salient Object Detection [10.353412441955436]
本研究では,グローバルな相互学習ネットワークであるGL-DMNetを提案する。
異なるモード間の相互依存性を利用するために,位置相互融合モジュールとチャネル相互融合モジュールを提案する。
提案するGL-DMNetは, 24 RGB-D SOD法よりも優れた性能を示し, 平均3%の改善を実現している。
論文 参考訳(メタデータ) (2025-01-03T05:37:54Z) - CSFNet: A Cosine Similarity Fusion Network for Real-Time RGB-X Semantic Segmentation of Driving Scenes [0.0]
マルチモーダルなセマンティックセグメンテーション手法は、高い計算複雑性と低い推論速度に悩まされる。
本稿では,リアルタイムRGB-XセマンティックセマンティックセグメンテーションモデルとしてCosine similarity Fusion Network (CSFNet)を提案する。
CSFNetは最先端の手法と競合する精度を持ち、速度に関しては最先端の手法である。
論文 参考訳(メタデータ) (2024-07-01T14:34:32Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。