論文の概要: Scribble-Supervised RGB-T Salient Object Detection
- arxiv url: http://arxiv.org/abs/2303.09733v1
- Date: Fri, 17 Mar 2023 02:27:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-20 15:49:45.964606
- Title: Scribble-Supervised RGB-T Salient Object Detection
- Title(参考訳): Scribble-Supervised RGB-T Salient Object Detection
- Authors: Zhengyi Liu, Xiaoshen Huang, Guanghui Zhang, Xianyong Fang, Linbo
Wang, Bin Tang
- Abstract要約: 本稿では,RGB-T有向物体検出モデルを提案する。
4段階の解法により,スクリブル制御手法のラベルスパース課題を解く。
モデルはRGB-Dおよびビデオフォアグラウンドスクリブル管理アプリケーションに適用される。
- 参考スコア(独自算出の注目度): 11.676609035589903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Salient object detection segments attractive objects in scenes. RGB and
thermal modalities provide complementary information and scribble annotations
alleviate large amounts of human labor. Based on the above facts, we propose a
scribble-supervised RGB-T salient object detection model. By a four-step
solution (expansion, prediction, aggregation, and supervision), label-sparse
challenge of scribble-supervised method is solved. To expand scribble
annotations, we collect the superpixels that foreground scribbles pass through
in RGB and thermal images, respectively. The expanded multi-modal labels
provide the coarse object boundary. To further polish the expanded labels, we
propose a prediction module to alleviate the sharpness of boundary. To play the
complementary roles of two modalities, we combine the two into aggregated
pseudo labels. Supervised by scribble annotations and pseudo labels, our model
achieves the state-of-the-art performance on the relabeled RGBT-S dataset.
Furthermore, the model is applied to RGB-D and video scribble-supervised
applications, achieving consistently excellent performance.
- Abstract(参考訳): 静かなオブジェクト検出セグメントは、シーン内の魅力的なオブジェクトです。
RGBと熱モダリティは相補的な情報を提供し、スクリブルアノテーションは大量の人的労働を軽減する。
以上の事実に基づいて,scribble-supervised rgb-t salient object detectionモデルを提案する。
4段階の解法(拡張、予測、集約、監視)により、スクリブル制御法のラベルスパース課題を解決する。
scribbleアノテーションを拡張するために、前景のscribbleが通過するスーパーピクセルをrgbと熱画像でそれぞれ収集する。
拡張されたマルチモーダルラベルは粗いオブジェクト境界を提供する。
拡張ラベルをさらに洗練するために,境界のシャープさを緩和する予測モジュールを提案する。
2つのモダリティの相補的な役割を演じるために、この2つを擬似ラベルに結合する。
アノテーションと擬似ラベルによって教師付けされた本モデルは,RGBT-Sデータセットの最先端性能を実現する。
さらに、RGB-Dおよびビデオスクリブル監視アプリケーションに適用し、一貫した性能を実現する。
関連論文リスト
- Spherical Space Feature Decomposition for Guided Depth Map
Super-Resolution [123.04455334124188]
誘導深度マップ超解像(GDSR)は、低解像度(LR)深度マップに高解像度(HR)RGB画像を含む追加情報を加えることを目的としている。
本稿では,この問題を解決するために,Spherical Space Feature Decomposition Network (SSDNet)を提案する。
提案手法は,4つのテストデータセットの最先端結果と実世界のシーンへの一般化を実現する。
論文 参考訳(メタデータ) (2023-03-15T21:22:21Z) - BiSTNet: Semantic Image Prior Guided Bidirectional Temporal Feature
Fusion for Deep Exemplar-based Video Colorization [70.14893481468525]
本稿では,参照例の色を探索し,映像のカラー化を支援するために有効なBiSTNetを提案する。
まず、各フレームと参照例間の深い特徴空間における意味的対応を確立し、参照例からの色情報を探究する。
我々は,フレームのオブジェクト境界をモデル化するための意味情報を抽出する混合専門家ブロックを開発した。
論文 参考訳(メタデータ) (2022-12-05T13:47:15Z) - Dual Swin-Transformer based Mutual Interactive Network for RGB-D Salient
Object Detection [67.33924278729903]
本研究では,Dual Swin-Transformerを用いたMutual Interactive Networkを提案する。
視覚入力における長距離依存をモデル化するために,RGBと奥行きモードの両方の機能抽出器としてSwin-Transformerを採用している。
5つの標準RGB-D SODベンチマークデータセットに関する総合的な実験は、提案手法の優位性を実証している。
論文 参考訳(メタデータ) (2022-06-07T08:35:41Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - RGB-D Saliency Detection via Cascaded Mutual Information Minimization [122.8879596830581]
既存のRGB-Dサリエンシ検出モデルは、RGBと深さを効果的にマルチモーダル学習を実現するために明示的に奨励するものではない。
本稿では,RGB画像と深度データ間のマルチモーダル情報を「明示的」にモデル化するために,相互情報最小化による新しい多段階学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-15T12:31:27Z) - Feature-Supervised Action Modality Transfer [35.550525307238146]
本稿では,ビデオモダリティにおける動作認識と検出を,限定されたモダリティ指定のラベル付き例のみに限定して行おうとする。
RGBや派生した光フローでは、多数の大規模ラベル付きデータセットが利用可能である。
論文 参考訳(メタデータ) (2021-08-06T22:59:10Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Cascade Graph Neural Networks for RGB-D Salient Object Detection [41.57218490671026]
色情報と深度情報の両方を用いて,RGB-D画像に対する正当性物体検出(SOD)の問題点を考察する。
この2つのデータソース間の相互利益を総合的に蒸留し推論できる統合フレームワークであるCascade Graph Neural Networks(Cas-Gnn)を紹介する。
Cas-Gnnは、いくつかの広く使用されているベンチマークにおいて、既存のRGB-DSODアプローチよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2020-08-07T10:59:04Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。