論文の概要: Breaking Alignment Barriers: TPS-Driven Semantic Correlation Learning for Alignment-Free RGB-T Salient Object Detection
- arxiv url: http://arxiv.org/abs/2512.21856v1
- Date: Fri, 26 Dec 2025 04:37:49 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:15.447728
- Title: Breaking Alignment Barriers: TPS-Driven Semantic Correlation Learning for Alignment-Free RGB-T Salient Object Detection
- Title(参考訳): Breaking Alignment Barriers:TPS-Driven Semantic Correlation Learning for Alignment-free RGB-T Salient Object Detection (特集:一般セッション)
- Authors: Lupiao Hu, Fasheng Wang, Fangmei Chen, Fuming Sun, Haojie Li,
- Abstract要約: 既存のRGB-Tの有能なオブジェクト検出方法は、手動でアライメントされたデータセットに依存している。
我々は、TPS-SCL(Thin-Plate Spline-driven Semantic correlation Learning Network)と呼ばれる実世界の非整合画像対に対する効率的なRGB-T SOD法を提案する。
TPS-SCLは、既存の軽量SOD手法の中で最先端(SOTA)性能を実現し、主流のRGB-T SOD手法より優れている。
- 参考スコア(独自算出の注目度): 34.62005077259452
- License:
- Abstract: Existing RGB-T salient object detection methods predominantly rely on manually aligned and annotated datasets, struggling to handle real-world scenarios with raw, unaligned RGB-T image pairs. In practical applications, due to significant cross-modal disparities such as spatial misalignment, scale variations, and viewpoint shifts, the performance of current methods drastically deteriorates on unaligned datasets. To address this issue, we propose an efficient RGB-T SOD method for real-world unaligned image pairs, termed Thin-Plate Spline-driven Semantic Correlation Learning Network (TPS-SCL). We employ a dual-stream MobileViT as the encoder, combined with efficient Mamba scanning mechanisms, to effectively model correlations between the two modalities while maintaining low parameter counts and computational overhead. To suppress interference from redundant background information during alignment, we design a Semantic Correlation Constraint Module (SCCM) to hierarchically constrain salient features. Furthermore, we introduce a Thin-Plate Spline Alignment Module (TPSAM) to mitigate spatial discrepancies between modalities. Additionally, a Cross-Modal Correlation Module (CMCM) is incorporated to fully explore and integrate inter-modal dependencies, enhancing detection performance. Extensive experiments on various datasets demonstrate that TPS-SCL attains state-of-the-art (SOTA) performance among existing lightweight SOD methods and outperforms mainstream RGB-T SOD approaches.
- Abstract(参考訳): 既存のRGB-Tの有能なオブジェクト検出方法は、手動でアノテートされたデータセットに依存しており、生のRGB-Tイメージペアで現実のシナリオを扱うのに苦労している。
実践的な応用では、空間的不整合、スケールの変動、視点シフトなどの重要な異質性のため、現在の手法の性能は不整合データセットで劇的に低下する。
そこで本研究では,TPS-SCL(Thin-Plate Spline-driven Semantic correlation Learning Network)と呼ばれる,実世界の非整合画像ペアに対する効率的なRGB-T SOD手法を提案する。
マルチストリームMobileViTをエンコーダとして,効率的なMambaスキャン機構と組み合わせて,低パラメータ数と計算オーバーヘッドを維持しながら2つのモード間の相関を効果的にモデル化する。
本研究では、アライメント中の冗長な背景情報からの干渉を抑制するために、階層的に有意な特徴を制約するセマンティック相関制約モジュール(SCCM)を設計する。
さらに,モダリティ間の空間的不一致を軽減するために,TPSAM (Thin-Plate Spline Alignment Module) を導入する。
さらに、相互依存を十分に探求し、統合し、検出性能を高めるために、クロスモーダル相関モジュール(CMCM)が組み込まれている。
様々なデータセットに対する大規模な実験により、TPS-SCLは既存の軽量SOD法で最先端(SOTA)性能を実現し、メインストリームのRGB-T SOD法より優れていることが示された。
関連論文リスト
- CADTrack: Learning Contextual Aggregation with Deformable Alignment for Robust RGBT Tracking [68.71826342377004]
RGB-Thermal (RGBT) トラッキングは、堅牢な全天候物体追跡のために可視および熱赤外モードを活用することを目的としている。
既存のRGBTトラッカーはモダリティの相違を解決するのに苦労している。
RGBT追跡のためのCADTrackと呼ばれる,変形可能なアライメントによるコンテキストアグリゲーション(Contextual Aggregation)を提案する。
論文 参考訳(メタデータ) (2025-11-22T08:10:02Z) - Graph-Based Uncertainty Modeling and Multimodal Fusion for Salient Object Detection [12.743278093269325]
動的不確実性伝播とマルチモーダル協調推論ネットワーク(DUP-MCRNet)を提案する。
DUGCは空間意味距離に基づいて構築されたスパースグラフを通じて層間の不確実性を伝播するように設計されている。
MCFは学習可能なモダリティゲーティングウェイトを使用して、RGB、深さ、エッジの特徴の注意マップを重み付けする。
論文 参考訳(メタデータ) (2025-08-28T04:31:48Z) - Cross-modal State Space Modeling for Real-time RGB-thermal Wild Scene Semantic Segmentation [31.147154902692748]
RGBと熱データの統合により、フィールドロボットの野生環境におけるセマンティックセグメンテーション性能が大幅に向上する。
本稿では,SSM(クロスモーダル状態空間モデリング)アプローチを利用した効率的なRGB-熱的セマンティックセマンティックセグメンテーションアーキテクチャであるCM-SSMを紹介する。
CM-SSMは、より少ないパラメータと少ない計算コストでCARTデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-06-22T01:53:11Z) - RGBX-DiffusionDet: A Framework for Multi-Modal RGB-X Object Detection Using DiffusionDet [0.0]
RGBX-DiffusionDetはDiffusionDetモデルを拡張するオブジェクト検出フレームワークである。
適応型マルチモーダルエンコーダにより、不均一な2Dデータ(X)をRGB画像と融合する。
論文 参考訳(メタデータ) (2025-05-05T11:39:51Z) - Divide-and-Conquer: Confluent Triple-Flow Network for RGB-T Salient Object Detection [70.84835546732738]
RGB-Thermal Salient Object Detectionは、目視と熱赤外画像のペア内の目立つ物体をピンポイントすることを目的としている。
従来のエンコーダ・デコーダアーキテクチャは、欠陥モードから生じるノイズに対する頑健さを十分に考慮していなかったかもしれない。
本稿では,Divide-and-Conquer戦略を用いた,堅牢なConfluent Triple-Flow NetworkであるConTriNetを提案する。
論文 参考訳(メタデータ) (2024-12-02T14:44:39Z) - DA-Flow: Dual Attention Normalizing Flow for Skeleton-based Video Anomaly Detection [52.74152717667157]
本稿では,DAM(Dual Attention Module)と呼ばれる軽量モジュールを提案する。
フレームアテンション機構を使用して、最も重要なフレームを識別し、スケルトンアテンション機構を使用して、最小パラメータとフロップで固定されたパーティション間の広範な関係をキャプチャする。
論文 参考訳(メタデータ) (2024-06-05T06:18:03Z) - Coarse-to-Fine Embedded PatchMatch and Multi-Scale Dynamic Aggregation
for Reference-based Super-Resolution [48.093500219958834]
参照型スーパーリゾリューションのためのAMSA(Accelerated Multi-Scale Aggregation Network)を提案する。
提案したAMSAは,定量評価と定性評価の両面において,最先端の手法よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-01-12T08:40:23Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGB-D Salient Object Detection with Cross-Modality Modulation and
Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。
提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文 参考訳(メタデータ) (2020-07-14T14:22:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。