論文の概要: SAMSOD: Rethinking SAM Optimization for RGB-T Salient Object Detection
- arxiv url: http://arxiv.org/abs/2510.03689v1
- Date: Sat, 04 Oct 2025 06:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.196514
- Title: SAMSOD: Rethinking SAM Optimization for RGB-T Salient Object Detection
- Title(参考訳): SAMSOD: RGB-T 能動物体検出のためのSAM最適化の再検討
- Authors: Zhengyi Liu, Xinrui Wang, Xianyong Fang, Zhengzheng Tu, Linbo Wang,
- Abstract要約: RGB-T Salient Object Detection (SOD) は、RGBと熱赤外画像を組み合わせて魅力的な物体を分割することを目的としている。
我々は,非支配的モダリティの学習を促進するために,一助的指導を利用するtextitSAMSOD というモデルを提案する。
- 参考スコア(独自算出の注目度): 15.774524474470233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-T salient object detection (SOD) aims to segment attractive objects by combining RGB and thermal infrared images. To enhance performance, the Segment Anything Model has been fine-tuned for this task. However, the imbalance convergence of two modalities and significant gradient difference between high- and low- activations are ignored, thereby leaving room for further performance enhancement. In this paper, we propose a model called \textit{SAMSOD}, which utilizes unimodal supervision to enhance the learning of non-dominant modality and employs gradient deconfliction to reduce the impact of conflicting gradients on model convergence. The method also leverages two decoupled adapters to separately mask high- and low-activation neurons, emphasizing foreground objects by enhancing background learning. Fundamental experiments on RGB-T SOD benchmark datasets and generalizability experiments on scribble supervised RGB-T SOD, fully supervised RGB-D SOD datasets and full-supervised RGB-D rail surface defect detection all demonstrate the effectiveness of our proposed method.
- Abstract(参考訳): RGB-T Salient Object Detection (SOD) は、RGBと熱赤外画像を組み合わせて魅力的な物体を分割することを目的としている。
パフォーマンスを向上させるため、Segment Anything Modelは、このタスクのために微調整されている。
しかし, 2つのモードの不均衡収束と, ハイアクティベーションとローアクティベーションの有意な勾配差は無視され, さらなる性能向上の余地が残る。
本稿では,非支配的モダリティの学習を促進するために一元的指導を利用して,矛盾する勾配がモデル収束に与える影響を低減するために勾配分解を利用する「textit{SAMSOD}」というモデルを提案する。
この方法はまた、2つの疎結合アダプターを利用して、高活動ニューロンと低活性化ニューロンを別々にマスキングし、背景学習を強化して前景オブジェクトを強調する。
RGB-T SODベンチマークデータセットの基礎実験とRGB-T SOD, 完全に教師付きRGB-D SODデータセット, フル教師付きRGB-D鉄道表面欠陥検出に関する一般化性実験により, 提案手法の有効性が示された。
関連論文リスト
- Beyond RGB and Events: Enhancing Object Detection under Adverse Lighting with Monocular Normal Maps [6.240947520777607]
我々は,新しいマルチモーダル検出フレームワークであるNRE-Netを紹介する。
これは、単眼で予測される表面正規地図、RGB画像、イベントストリームの3つの相補的なモダリティを融合させる。
NRE-Netは最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2025-08-04T07:19:20Z) - RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet [0.0]
RGBX-DiffusionDetはDiffusionDetモデルを拡張するオブジェクト検出フレームワークである。
適応型マルチモーダルエンコーダにより、不均一な2Dデータ(X)をRGB画像と融合する。
論文 参考訳(メタデータ) (2025-05-05T11:39:51Z) - KAN-SAM: Kolmogorov-Arnold Network Guided Segment Anything Model for RGB-T Salient Object Detection [35.52055285209549]
そこで本研究では,RGB-T SODタスクの視覚的基礎モデルの可能性を明らかにする。
具体的には,RGB-T SODのSegment Anything Model 2 (SAM2) を拡張した。
また、RGBデータへの依存を減らし、一般化を改善するために、相互排他的なランダムマスキング戦略を導入する。
論文 参考訳(メタデータ) (2025-04-08T10:07:02Z) - Bringing RGB and IR Together: Hierarchical Multi-Modal Enhancement for Robust Transmission Line Detection [67.02804741856512]
高速かつ高精度なTL検出のために,RGBとIRデータを統合したHMMEN(Hierarchical Multi-Modal Enhancement Network)を提案する。
提案手法では,(1)階層的RGBおよびIR特徴写像を大まかに融合・拡張するMMEB,(2)デコーダ出力とIR特徴写像の不整合を変形可能な畳み込みを利用して補正するFAB,の2つの重要な構成要素を紹介する。
論文 参考訳(メタデータ) (2025-01-25T06:21:06Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Boosting RGB-D Saliency Detection by Leveraging Unlabeled RGB Images [89.81919625224103]
RGB-D Salient Object Detection (SOD) のための深層モデルの訓練は、しばしば多数のラベル付きRGB-D画像を必要とする。
本稿では、ラベルのないRGB画像を活用するために、Dual-Semi RGB-D Salient Object Detection Network (DS-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-01T03:02:27Z) - Learning Selective Mutual Attention and Contrast for RGB-D Saliency
Detection [145.4919781325014]
クロスモーダル情報を効果的に融合する方法は、RGB-Dの有能な物体検出の鍵となる問題である。
多くのモデルは特徴融合戦略を用いるが、低次点対点融合法によって制限されている。
本研究では,異なるモダリティから注目とコンテキストを融合させることにより,新たな相互注意モデルを提案する。
論文 参考訳(メタデータ) (2020-10-12T08:50:10Z) - Siamese Network for RGB-D Salient Object Detection and Beyond [113.30063105890041]
共有ネットワークバックボーンを通じてRGBと深度入力の両方から学習するための新しいフレームワークが提案されている。
5つの一般的な指標を用いた総合的な実験は、設計されたフレームワークが堅牢なRGB-D塩分濃度検出器をもたらすことを示している。
また、JL-DCFをRGB-Dセマンティックセマンティックセマンティクスフィールドにリンクし、いくつかのセマンティクスセマンティクスモデルよりも優れた性能を示す。
論文 参考訳(メタデータ) (2020-08-26T06:01:05Z) - Cascade Graph Neural Networks for RGB-D Salient Object Detection [41.57218490671026]
色情報と深度情報の両方を用いて,RGB-D画像に対する正当性物体検出(SOD)の問題点を考察する。
この2つのデータソース間の相互利益を総合的に蒸留し推論できる統合フレームワークであるCascade Graph Neural Networks(Cas-Gnn)を紹介する。
Cas-Gnnは、いくつかの広く使用されているベンチマークにおいて、既存のRGB-DSODアプローチよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-08-07T10:59:04Z) - Cross-Modal Weighting Network for RGB-D Salient Object Detection [76.0965123893641]
我々は,RGB-D SODの深度チャネルとRGB-D SODの包括的相互作用を促進するために,新しいクロスモーダルウェイトリング(CMW)戦略を提案する。
具体的には、CMW-L、CMW-M、CMW-Hという3つのRGB-depth相互作用モジュールが、それぞれ低レベル、中級、高レベルのクロスモーダル情報融合を扱うように開発されている。
CMWNetは、7つの人気のあるベンチマークで15の最先端のRGB-D SODメソッドを上回っている。
論文 参考訳(メタデータ) (2020-07-09T16:01:44Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。