論文の概要: Position-Aware Relation Learning for RGB-Thermal Salient Object
Detection
- arxiv url: http://arxiv.org/abs/2209.10158v1
- Date: Wed, 21 Sep 2022 07:34:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-22 16:27:49.101441
- Title: Position-Aware Relation Learning for RGB-Thermal Salient Object
Detection
- Title(参考訳): RGB熱塩物検出のための位置認識関係学習
- Authors: Heng Zhou, Chunna Tian, Zhenxi Zhang, Chengyang Li, Yuxuan Ding,
Yongqiang Xie, Zhongbo Li
- Abstract要約: 我々は,Swin Transformerに基づくRGB-T SODのための位置認識型関係学習ネットワーク(PRLNet)を提案する。
PRLNetは、クラス内コンパクト性とクラス間分離を強化するために、ピクセル間の距離と方向の関係を探索する。
さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。
- 参考スコア(独自算出の注目度): 3.115635707192086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: RGB-Thermal salient object detection (SOD) combines two spectra to segment
visually conspicuous regions in images. Most existing methods use boundary maps
to learn the sharp boundary. These methods ignore the interactions between
isolated boundary pixels and other confident pixels, leading to sub-optimal
performance. To address this problem,we propose a position-aware relation
learning network (PRLNet) for RGB-T SOD based on swin transformer. PRLNet
explores the distance and direction relationships between pixels to strengthen
intra-class compactness and inter-class separation, generating salient object
masks with clear boundaries and homogeneous regions. Specifically, we develop a
novel signed distance map auxiliary module (SDMAM) to improve encoder feature
representation, which takes into account the distance relation of different
pixels in boundary neighborhoods. Then, we design a feature refinement approach
with directional field (FRDF), which rectifies features of boundary
neighborhood by exploiting the features inside salient objects. FRDF utilizes
the directional information between object pixels to effectively enhance the
intra-class compactness of salient regions. In addition, we constitute a pure
transformer encoder-decoder network to enhance multispectral feature
representation for RGB-T SOD. Finally, we conduct quantitative and qualitative
experiments on three public benchmark datasets.The results demonstrate that our
proposed method outperforms the state-of-the-art methods.
- Abstract(参考訳): RGB-Thermal Salient Object Detection (SOD)は2つのスペクトルを組み合わせて画像内の視覚的に目立つ領域を分割する。
既存の手法のほとんどは境界写像を使って鋭い境界を学ぶ。
これらの手法は、分離された境界画素と他の確実な画素との相互作用を無視し、準最適性能をもたらす。
この問題に対処するために,Swin Transformer を用いた RGB-T SOD のための位置認識型関係学習ネットワーク (PRLNet) を提案する。
PRLNetは、クラス内コンパクト性とクラス間分離を強化するため、ピクセル間の距離と方向の関係を探索し、明確な境界と均一な領域を持つ有能なオブジェクトマスクを生成する。
具体的には,境界近傍の異なる画素間の距離関係を考慮したエンコーダ特徴表現を改善するために,符号付き距離マップ補助モジュール(SDMAM)を開発した。
そこで, 指向性フィールド(FRDF)を用いた特徴改善手法を設計し, 有向物体内部の特徴を利用して境界近傍の特徴を補正する。
FRDFは、対象画素間の方向情報を利用して、サルエント領域のクラス内コンパクト性を効果的に強化する。
さらに、RGB-T SODのマルチスペクトル特徴表現を強化するために、純粋なトランスフォーマーエンコーダデコーダネットワークを構成する。
最後に,3つの公開ベンチマークデータセットについて定量的,定性的な実験を行い,提案手法が最先端の手法より優れていることを示す。
関連論文リスト
- United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。
実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-11T04:12:27Z) - Frequency-Spatial Entanglement Learning for Camouflaged Object Detection [34.426297468968485]
既存の手法では、複雑な設計で空間的特徴の識別能力を最大化することにより、画素類似性の影響を減らそうとしている。
本稿では,周波数領域と空間領域の表現を共同で探索し,周波数空間の絡み合い学習(FSEL)手法を提案する。
我々の実験は、広く使われている3つのデータセットにおける包括的量的および質的比較を通じて、21以上の最先端手法によるFSELの優位性を実証した。
論文 参考訳(メタデータ) (2024-09-03T07:58:47Z) - Optimizing rgb-d semantic segmentation through multi-modal interaction
and pooling attention [5.518612382697244]
マルチモーダルインタラクションとプールアテンションネットワーク(MIPANet)は,RGBと奥行きモダリティの相互相乗効果を利用するように設計されている。
エンコーダの様々な段階でプール注意モジュール(PAM)を導入する。
このモジュールは、ネットワークによって抽出された機能を増幅し、モジュールの出力をデコーダに統合する。
論文 参考訳(メタデータ) (2023-11-19T12:25:59Z) - HiDAnet: RGB-D Salient Object Detection via Hierarchical Depth Awareness [2.341385717236931]
本稿では,RGB-Dサリエンシ検出のための階層的深度認識ネットワーク(HiDAnet)を提案する。
我々のモチベーションは、幾何学的先行の多粒性特性がニューラルネットワーク階層とよく相関しているという観察から来ています。
当社のHiDAnetは最先端の手法よりも大きなマージンで良好に動作します。
論文 参考訳(メタデータ) (2023-01-18T10:00:59Z) - CIR-Net: Cross-modality Interaction and Refinement for RGB-D Salient
Object Detection [144.66411561224507]
本稿では,CIR-Netと呼ばれる畳み込みニューラルネットワーク(CNN)モデルを提案する。
我々のネットワークは、定性的かつ定量的に最先端の塩分濃度検出器より優れています。
論文 参考訳(メタデータ) (2022-10-06T11:59:19Z) - Cross-modality Discrepant Interaction Network for RGB-D Salient Object
Detection [78.47767202232298]
本稿では,RGB-D SODのためのクロスモダリティ離散相互作用ネットワーク(CDINet)を提案する。
2つのコンポーネントは、効果的な相互モダリティ相互作用を実装するように設計されている。
我々のネットワークは、定量的にも質的にも15ドルの最先端の手法より優れています。
論文 参考訳(メタデータ) (2021-08-04T11:24:42Z) - EPMF: Efficient Perception-aware Multi-sensor Fusion for 3D Semantic Segmentation [62.210091681352914]
自律運転やロボティクスなど,多くのアプリケーションを対象とした3次元セマンティックセマンティックセグメンテーションのためのマルチセンサフュージョンについて検討する。
本研究では,知覚認識型マルチセンサフュージョン(PMF)と呼ばれる協調融合方式について検討する。
本稿では,2つのモードから特徴を分離して抽出する2ストリームネットワークを提案する。
論文 参考訳(メタデータ) (2021-06-21T10:47:26Z) - AINet: Association Implantation for Superpixel Segmentation [82.21559299694555]
今回提案する新しいtextbfAssociation textbfImplantation(AI)モジュールは、ネットワークがピクセルとその周辺グリッド間の関係を明示的にキャプチャすることを可能にする。
本手法は最先端性能を実現するだけでなく,十分な推論効率を維持することができた。
論文 参考訳(メタデータ) (2021-01-26T10:40:13Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - Saliency Enhancement using Gradient Domain Edges Merging [65.90255950853674]
本研究では,エッジとサリエンシマップをマージして,サリエンシマップの性能を向上させる手法を開発した。
これにより、DUT-OMRONデータセットの少なくとも3.4倍の平均的な改善により、エッジ(SEE)を使用したサリエンシ向上が提案された。
SEEアルゴリズムは前処理のためのSEE-Preと後処理のためのSEE-Postの2つの部分に分けられる。
論文 参考訳(メタデータ) (2020-02-11T14:04:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。