論文の概要: Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network
- arxiv url: http://arxiv.org/abs/2412.14576v1
- Date: Thu, 19 Dec 2024 06:52:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:24.781295
- Title: Alignment-Free RGB-T Salient Object Detection: A Large-scale Dataset and Progressive Correlation Network
- Title(参考訳): 配向のないRGB-T有向物体検出:大規模データセットとプログレッシブ相関ネットワーク
- Authors: Kunpeng Wang, Keke Chen, Chenglong Li, Zhengzheng Tu, Bin Luo,
- Abstract要約: UVT20Kという大規模かつ高多様性なRGB-T SODデータセットを構築し,2万枚の画像ペア,407シーン,1256個のオブジェクトカテゴリからなる。
さらなる研究を支援するために、UVT20Kの各サンプルには、サリエンシマスク、スクリブル、バウンダリ、チャレンジ属性を含む、包括的な真実のセットが注釈付けされている。
さらに,非整合画像ペアにおける正確な予測を実現するために,明示的なアライメントに基づいてモーダル間相関とモーダル内相関をモデル化するプログレッシブ相関ネットワーク(PCNet)を提案する。
- 参考スコア(独自算出の注目度): 17.777510689748173
- License:
- Abstract: Alignment-free RGB-Thermal (RGB-T) salient object detection (SOD) aims to achieve robust performance in complex scenes by directly leveraging the complementary information from unaligned visible-thermal image pairs, without requiring manual alignment. However, the labor-intensive process of collecting and annotating image pairs limits the scale of existing benchmarks, hindering the advancement of alignment-free RGB-T SOD. In this paper, we construct a large-scale and high-diversity unaligned RGB-T SOD dataset named UVT20K, comprising 20,000 image pairs, 407 scenes, and 1256 object categories. All samples are collected from real-world scenarios with various challenges, such as low illumination, image clutter, complex salient objects, and so on. To support the exploration for further research, each sample in UVT20K is annotated with a comprehensive set of ground truths, including saliency masks, scribbles, boundaries, and challenge attributes. In addition, we propose a Progressive Correlation Network (PCNet), which models inter- and intra-modal correlations on the basis of explicit alignment to achieve accurate predictions in unaligned image pairs. Extensive experiments conducted on unaligned and aligned datasets demonstrate the effectiveness of our method.Code and dataset are available at https://github.com/Angknpng/PCNet.
- Abstract(参考訳): 調整不要なRGB-Thermal (RGB-T) Salient Object Detection (SOD) は、手動アライメントを必要とせず、不整合可視熱画像対からの補完情報を直接活用することにより、複雑なシーンで堅牢なパフォーマンスを実現することを目的としている。
しかし、イメージペアの収集と注釈付けの労働集約的なプロセスは、既存のベンチマークの規模を制限し、アライメントのないRGB-T SODの進歩を妨げる。
本稿では,2万のイメージペア,407のシーン,1256のオブジェクトカテゴリからなる,大規模かつ高多様性なRGB-T SODデータセットUVT20Kを構築した。
すべてのサンプルは、低照度、画像クラッタ、複雑なサリアンオブジェクトなど、さまざまな課題のある現実世界のシナリオから収集される。
さらなる研究を支援するために、UVT20Kの各サンプルには、サリエンシマスク、スクリブル、バウンダリ、チャレンジ属性を含む、包括的な真実のセットが注釈付けされている。
さらに,非整合画像ペアにおける正確な予測を実現するために,明示的なアライメントに基づいてモーダル間相関とモーダル内相関をモデル化するプログレッシブ相関ネットワーク(PCNet)を提案する。
不整合および整合性データセットで実施された大規模な実験は、我々のメソッドの有効性を示し、コードとデータセットはhttps://github.com/Angknpng/PCNet.comで公開されている。
関連論文リスト
- RGB-Sonar Tracking Benchmark and Spatial Cross-Attention Transformer Tracker [4.235252053339947]
本稿では,新しいRGB-Sonar(RGB-S)トラッキングタスクを提案する。
RGBとソナーモダリティの相互作用により、水中の標的の効率的な追跡を実現する方法について検討する。
論文 参考訳(メタデータ) (2024-06-11T12:01:11Z) - Alignment-Free RGBT Salient Object Detection: Semantics-guided Asymmetric Correlation Network and A Unified Benchmark [15.435695491233982]
RGB と Thermal (RGBT) Salient Object Detection (SOD) は高品質な塩分濃度予測を実現することを目的としている。
既存の手法は、労働集約的な手動でアライメントされたイメージペア向けに調整されている。
手動によるアライメントを伴わないRGBT SODと熱画像のペアに対して,RGBT SODに対処する最初の試みを行う。
論文 参考訳(メタデータ) (2024-06-03T01:01:58Z) - Segment Any Events via Weighted Adaptation of Pivotal Tokens [85.39087004253163]
本稿では,Segment Anything Models (SAM) をイベントデータと統合する上で,難易度の高い課題に焦点を当てる。
本稿では,RGB画像とイベントデータからのトークン埋め込みのアライメントを最適化するマルチスケールな特徴蒸留手法を提案する。
論文 参考訳(メタデータ) (2023-12-24T12:47:08Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation [49.28588927121722]
ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。
室内環境における13の異なるシーンをフレーミングする新しいRGB-MSデータセットを導入し,34枚の画像対に半高解像度の高解像度の地上トラスラベルを付加したアノテートを行った。
そこで本研究では,RGBカメラを活用した自己指導型ディープラーニングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-06-14T17:59:59Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Self-Supervised Representation Learning for RGB-D Salient Object
Detection [93.17479956795862]
我々は、自己教師付き表現学習を用いて、クロスモーダルオートエンコーダと深さ-輪郭推定という2つのプレテキストタスクを設計する。
我々のプレテキストタスクは、ネットワークがリッチなセマンティックコンテキストをキャプチャする事前トレーニングを実行するのに、少数のRGB-Dデータセットしか必要としない。
RGB-D SODにおけるクロスモーダル核融合の固有の問題として,マルチパス核融合モジュールを提案する。
論文 参考訳(メタデータ) (2021-01-29T09:16:06Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z) - RGBT Salient Object Detection: A Large-scale Dataset and Benchmark [12.14043884641457]
RGBと熱赤外画像の利点を生かして、複雑な場面で顕著な物体を検出する新たな研究方向となる。
この研究はVT5000という名のRGBT画像データセットに寄与し、5000の空間的整列されたRGBT画像対と地上の真理アノテーションを含んでいる。
本稿では,各モードの多レベル特徴を抽出し,すべてのモードの特徴をアテンション機構で集約する,強力なベースラインアプローチを提案する。
論文 参考訳(メタデータ) (2020-07-07T07:58:14Z) - Synergistic saliency and depth prediction for RGB-D saliency detection [76.27406945671379]
既存のRGB-Dサリエンシデータセットは小さく、多様なシナリオに対して過度に適合し、限定的な一般化につながる可能性がある。
そこで本研究では,RGB-Dサリエンシ検出のための半教師付きシステムを提案する。
論文 参考訳(メタデータ) (2020-07-03T14:24:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。