Fugu-MT 論文翻訳(概要): Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark

論文の概要: Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark

arxiv url: http://arxiv.org/abs/2406.00917v1
Date: Mon, 3 Jun 2024 01:01:58 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-06 02:47:03.205042
Title: Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark
Title（参考訳）: アライメントフリーなRGBT有向物体検出:セマンティック誘導非対称ネットワークと統一ベンチマーク
Authors: Kunpeng Wang, Danying Lin, Chenglong Li, Zhengzheng Tu, Bin Luo,
Abstract要約: RGB と Thermal (RGBT) Salient Object Detection (SOD) は高品質な塩分濃度予測を実現することを目的としている。既存の手法は、労働集約的な手動でアライメントされたイメージペア向けに調整されている。手動によるアライメントを伴わないRGBT SODと熱画像のペアに対して,RGBT SODに対処する最初の試みを行う。
参考スコア（独自算出の注目度）: 15.435695491233982
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: RGB and Thermal (RGBT) Salient Object Detection (SOD) aims to achieve high-quality saliency prediction by exploiting the complementary information of visible and thermal image pairs, which are initially captured in an unaligned manner. However, existing methods are tailored for manually aligned image pairs, which are labor-intensive, and directly applying these methods to original unaligned image pairs could significantly degrade their performance. In this paper, we make the first attempt to address RGBT SOD for initially captured RGB and thermal image pairs without manual alignment. Specifically, we propose a Semantics-guided Asymmetric Correlation Network (SACNet) that consists of two novel components: 1) an asymmetric correlation module utilizing semantics-guided attention to model cross-modal correlations specific to unaligned salient regions; 2) an associated feature sampling module to sample relevant thermal features according to the corresponding RGB features for multi-modal feature integration. In addition, we construct a unified benchmark dataset called UVT2000, containing 2000 RGB and thermal image pairs directly captured from various real-world scenes without any alignment, to facilitate research on alignment-free RGBT SOD. Extensive experiments on both aligned and unaligned datasets demonstrate the effectiveness and superior performance of our method. The dataset and code are available at https://github.com/Angknpng/SACNet.
Abstract（参考訳）: RGB and Thermal (RGBT) Salient Object Detection (SOD) は、可視画像対と熱画像対の相補的情報を利用して高品質な塩分濃度予測を実現することを目的としている。しかし、既存の手法は、労働集約的な手動整列画像対に適合し、これらの手法を元の非整列画像対に直接適用することで、その性能を著しく低下させる可能性がある。本稿では,手動のアライメントを伴わないRGBT SODと熱画像のペアに対して,RGBT SODに対処するための最初の試みを行う。具体的には2つの新しい構成要素からなるセマンティックス誘導非対称相関ネットワーク(SACNet)を提案する。 1) セマンティクス誘導による注意力を利用した非対称相関モジュール 2)マルチモーダル機能統合のためのRGB機能に応じて,関連する熱的特徴をサンプリングするための関連する特徴サンプリングモジュール。さらに,アライメントのないRGBT SODの研究を容易にするため,2000 RGBと熱画像のペアをアライメントなしで様々な現実世界のシーンから直接キャプチャするUVT2000という統合ベンチマークデータセットを構築した。整列データセットと非整列データセットの併用実験により,本手法の有効性と性能を実証した。データセットとコードはhttps://github.com/Angknpng/SACNetで公開されている。

関連論文リスト

Breaking Alignment Barriers: TPS-Driven Semantic Correlation Learning for Alignment-Free RGB-T Salient Object Detection [34.62005077259452]
既存のRGB-Tの有能なオブジェクト検出方法は、手動でアライメントされたデータセットに依存している。我々は、TPS-SCL(Thin-Plate Spline-driven Semantic correlation Learning Network)と呼ばれる実世界の非整合画像対に対する効率的なRGB-T SOD法を提案する。 TPS-SCLは、既存の軽量SOD手法の中で最先端(SOTA)性能を実現し、主流のRGB-T SOD手法より優れている。
論文参考訳（メタデータ） (2025-12-26T04:37:49Z)
HyPSAM: Hybrid Prompt-driven Segment Anything Model for RGB-Thermal Salient Object Detection [75.406055413928]
RGB-T SODのための新しいプロンプト駆動セグメントモデル(HyPSAM)を提案する。 DFNetは動的畳み込みとマルチブランチデコーディングを使用して、適応的な相互モダリティ相互作用を促進する。 3つの公開データセットの実験により,本手法が最先端の性能を達成することを示す。
論文参考訳（メタデータ） (2025-09-23T07:32:11Z)
Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network [17.777510689748173]
UVT20Kという大規模かつ高多様性なRGB-T SODデータセットを構築し,2万枚の画像ペア,407シーン,1256個のオブジェクトカテゴリからなる。さらなる研究を支援するために、UVT20Kの各サンプルには、サリエンシマスク、スクリブル、バウンダリ、チャレンジ属性を含む、包括的な真実のセットが注釈付けされている。さらに,非整合画像ペアにおける正確な予測を実現するために,明示的なアライメントに基づいてモーダル間相関とモーダル内相関をモデル化するプログレッシブ相関ネットワーク(PCNet)を提案する。
論文参考訳（メタデータ） (2024-12-19T06:52:12Z)
Towards Human-Level 3D Relative Pose Estimation: Generalizable, Training-Free, with Single Reference [62.99706119370521]
人間は、単一のクエリ参照イメージペアのみを与えられたラベル/トレーニングなしで、目に見えないオブジェクトの相対的なポーズを容易に推論することができる。そこで,本研究では,RGB-D参照から2.5D形状のRGB-D参照,オフザシェルフ微分可能なRGB-D参照,DINOv2のような事前学習モデルからのセマンティックキューを用いた3D一般化可能な相対ポーズ推定手法を提案する。
論文参考訳（メタデータ） (2024-06-26T16:01:10Z)
Channel and Spatial Relation-Propagation Network for RGB-Thermal Semantic Segmentation [10.344060599932185]
RGB-Thermal (RGB-T)セマンティックセマンティックセグメンテーションは、低照度条件を扱う上で大きな可能性を示している。 RGB-Tセマンティックセグメンテーションの鍵は、RGBと熱画像の相補的性質を効果的に活用することである。
論文参考訳（メタデータ） (2023-08-24T03:43:47Z)
Residual Spatial Fusion Network for RGB-Thermal Semantic Segmentation [19.41334573257174]
従来の方法では、主にRGBイメージを使用し、照明条件、例えば暗闇の影響が大きい。近年の研究では、セグメンテーションの補正モダリティとして、熱画像は夜のシナリオに頑健であることが示されている。本稿では,RGB-TセマンティックセグメンテーションのためのResidual Spatial Fusion Network (RSFNet)を提案する。
論文参考訳（メタデータ） (2023-06-17T14:28:08Z)
Hyperspectral Image Super Resolution with Real Unaligned RGB Guidance [11.711656319221072]
異種特徴抽出,多段階特徴アライメント,注意的特徴融合を含むHSI融合ネットワークを提案する。本手法は, 既存の単一画像と核融合による超解像法に対して, 定量的評価と視覚的比較において明らかに改善されている。
論文参考訳（メタデータ） (2023-02-13T11:56:45Z)
Does Thermal Really Always Matter for RGB-T Salient Object Detection? [153.17156598262656]
本稿では,RGB-T有意物体検出(SOD)タスクを解決するために,TNetというネットワークを提案する。本稿では,画像のグローバル照度を推定するためのグローバル照度推定モジュールを提案する。一方, 2段階の局所化と相補化モジュールを導入し, 熱的特徴の物体位置化キューと内部整合キューをRGBモダリティに転送する。
論文参考訳（メタデータ） (2022-10-09T13:50:12Z)
Mirror Complementary Transformer Network for RGB-thermal Salient Object Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2022-07-07T20:26:09Z)
Self-Supervised Representation Learning for RGB-D Salient Object Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。 RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文参考訳（メタデータ） (2021-01-29T09:16:06Z)
Bi-directional Cross-Modality Feature Propagation with Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文参考訳（メタデータ） (2020-07-17T18:35:24Z)
RGB-D Salient Object Detection with Cross-Modality Modulation and Selection [126.4462739820643]
本稿では, RGB-D Salient Object Detection (SOD) において, モジュール間相補性を段階的に統合し, 改良する有効な方法を提案する。提案するネットワークは,1)RGB画像とそれに対応する深度マップからの補完情報を効果的に統合する方法,および2)より精度の高い特徴を適応的に選択する方法の2つの課題を主に解決する。
論文参考訳（メタデータ） (2020-07-14T14:22:50Z)
RANSAC-Flow: generic two-stage image alignment [53.11926395028508]
単純な教師なしのアプローチは、様々なタスクにおいて驚くほどうまく機能することを示す。その単純さにもかかわらず、我々の手法は様々なタスクやデータセットで競合する結果を示す。
論文参考訳（メタデータ） (2020-04-03T12:37:58Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。