論文の概要: RGBT Salient Object Detection: A Large-scale Dataset and Benchmark
- arxiv url: http://arxiv.org/abs/2007.03262v6
- Date: Mon, 23 May 2022 03:38:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-12 20:00:53.563733
- Title: RGBT Salient Object Detection: A Large-scale Dataset and Benchmark
- Title(参考訳): RGBT Salient Object Detection: 大規模データセットとベンチマーク
- Authors: Zhengzheng Tu, Yan Ma, Zhun Li, Chenglong Li, Jieming Xu, Yongtao Liu
- Abstract要約: RGBと熱赤外画像の利点を生かして、複雑な場面で顕著な物体を検出する新たな研究方向となる。
この研究はVT5000という名のRGBT画像データセットに寄与し、5000の空間的整列されたRGBT画像対と地上の真理アノテーションを含んでいる。
本稿では,各モードの多レベル特徴を抽出し,すべてのモードの特徴をアテンション機構で集約する,強力なベースラインアプローチを提案する。
- 参考スコア(独自算出の注目度): 12.14043884641457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Salient object detection in complex scenes and environments is a challenging
research topic. Most works focus on RGB-based salient object detection, which
limits its performance of real-life applications when confronted with adverse
conditions such as dark environments and complex backgrounds. Taking advantage
of RGB and thermal infrared images becomes a new research direction for
detecting salient object in complex scenes recently, as thermal infrared
spectrum imaging provides the complementary information and has been applied to
many computer vision tasks. However, current research for RGBT salient object
detection is limited by the lack of a large-scale dataset and comprehensive
benchmark. This work contributes such a RGBT image dataset named VT5000,
including 5000 spatially aligned RGBT image pairs with ground truth
annotations. VT5000 has 11 challenges collected in different scenes and
environments for exploring the robustness of algorithms. With this dataset, we
propose a powerful baseline approach, which extracts multi-level features
within each modality and aggregates these features of all modalities with the
attention mechanism, for accurate RGBT salient object detection. Extensive
experiments show that the proposed baseline approach outperforms the
state-of-the-art methods on VT5000 dataset and other two public datasets. In
addition, we carry out a comprehensive analysis of different algorithms of RGBT
salient object detection on VT5000 dataset, and then make several valuable
conclusions and provide some potential research directions for RGBT salient
object detection.
- Abstract(参考訳): 複雑なシーンや環境における健全な物体検出は、難しい研究課題である。
ほとんどの研究は、暗黒環境や複雑な背景といった悪条件に直面した場合、現実のアプリケーションの性能を制限するRGBベースの有能なオブジェクト検出に焦点を当てている。
近年,RGBや熱赤外画像の活用は,多くのコンピュータビジョンタスクにおいて,熱赤外分光画像が相補的な情報を提供するため,複雑な場面で顕著な物体を検出する新たな研究方向となる。
しかし、RGBTの有意なオブジェクト検出に関する現在の研究は、大規模なデータセットと包括的なベンチマークが欠如しているために制限されている。
この研究はVT5000という名のRGBT画像データセットに寄与し、5000の空間的整列されたRGBT画像対と地上の真理アノテーションを含んでいる。
VT5000には、アルゴリズムの堅牢性を調べるための、さまざまなシーンや環境において収集された11の課題がある。
このデータセットを用いて,各モダリティ内の多レベル特徴を抽出し,これらの特徴をアテンション機構で集約し,rgbt有意なオブジェクト検出を行う,強力なベースラインアプローチを提案する。
広範な実験により、提案されたベースラインアプローチは、vt5000データセットと他の2つの公開データセットの最先端のメソッドよりも優れていることが示された。
さらに、VT5000データセット上でRGBT有意物体検出のアルゴリズムを網羅的に分析し、いくつかの重要な結論を出し、RGBT有意物体検出の潜在的な研究方向を提供する。
関連論文リスト
- SARDet-100K: Towards Open-Source Benchmark and ToolKit for Large-Scale
SAR Object Detection [83.21028626585986]
我々は,大規模SARオブジェクト検出のための新しいベンチマークデータセットとオープンソース手法を構築した。
私たちのデータセットであるSARDet-100Kは、10の既存のSAR検出データセットの厳格な調査、収集、標準化の結果です。
私たちの知る限りでは、SARDet-100KはCOCOレベルの大規模マルチクラスSARオブジェクト検出データセットとしては初めてのものです。
論文 参考訳(メタデータ) (2024-03-11T09:20:40Z) - EANet: Enhanced Attribute-based RGBT Tracker Network [0.0]
RGBと熱画像(RGBT)を融合した深層学習に基づく画像追跡手法を提案する。
提案モデルは,特徴抽出器とトラッカーの2つの主成分から構成される。
提案手法はRGBT234 citeLiCLiang 2018とLasHeR citeLiLasher 2021データセットで評価される。
論文 参考訳(メタデータ) (2023-07-04T19:34:53Z) - Object Detection in Hyperspectral Image via Unified Spectral-Spatial
Feature Aggregation [55.9217962930169]
S2ADetは、高スペクトル画像に固有の豊富なスペクトル情報と空間補完情報を利用する物体検出器である。
S2ADetは既存の最先端メソッドを超え、堅牢で信頼性の高い結果を達成する。
論文 参考訳(メタデータ) (2023-06-14T09:01:50Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware
Ambidextrous Bin Picking via Physics-based Metaverse Synthesis [72.85526892440251]
本稿では,物理に基づくメタバース合成により構築した大規模写真リアリスティックビンピックデータセットであるMetaGraspNetを紹介する。
提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。
また,2.3k以上の完全アノテートされた高品質なRGBD画像からなる実際のデータセットを5段階の難易度と,異なるオブジェクトおよびレイアウト特性を評価するための見えないオブジェクトセットに分割する。
論文 参考訳(メタデータ) (2022-08-08T08:15:34Z) - Visible-Thermal UAV Tracking: A Large-Scale Benchmark and New Baseline [80.13652104204691]
本稿では,可視熱UAV追跡(VTUAV)のための高多様性の大規模ベンチマークを構築する。
本稿では, フレームレベルの属性を, チャレンジ固有のトラッカーの可能性を利用するための粗粒度属性アノテーションを提案する。
さらに,様々なレベルでRGB-Tデータを融合するHMFT(Hierarchical Multi-modal Fusion Tracker)という新しいRGB-Tベースラインを設計する。
論文 参考訳(メタデータ) (2022-04-08T15:22:33Z) - Multi-Scale Iterative Refinement Network for RGB-D Salient Object
Detection [7.062058947498447]
RGB画像の様々なスケールや解像度に、様々な特徴レベルの意味的ギャップがあるため、健全な視覚的手がかりが現れる。
同様のサージェントパターンは、クロスモーダルなディープイメージとマルチスケールバージョンで利用できる。
注意に基づく融合モジュール (ABF) を設計し, 相互相関に対処する。
論文 参考訳(メタデータ) (2022-01-24T10:33:00Z) - RGB-D Salient Object Detection with Ubiquitous Target Awareness [37.6726410843724]
我々は、新しい深度認識フレームワークを用いて、RGB-D有向物体検出問題を解くための最初の試みを行う。
本稿では,RGB-D SODタスクにおける3つの課題を解決するために,ユビキタスターゲット意識(UTA)ネットワークを提案する。
提案するUTAネットワークは深度フリーで,43FPSでリアルタイムに動作可能である。
論文 参考訳(メタデータ) (2021-09-08T04:27:29Z) - LasHeR: A Large-scale High-diversity Benchmark for RGBT Tracking [27.00930976353204]
LasHeRは1224枚の可視・熱赤外ビデオ対と合計730Kフレーム対で構成されている。
LasHeRは、広範囲のオブジェクトカテゴリ、カメラ視点、シーンの複雑さ、環境要因から非常に多様である。
LasHeRデータセット上で12RGBT追跡アルゴリズムの包括的なパフォーマンス評価を行います。
論文 参考訳(メタデータ) (2021-04-27T14:04:23Z) - FAIR1M: A Benchmark Dataset for Fine-grained Object Recognition in
High-Resolution Remote Sensing Imagery [21.9319970004788]
我々は,高分解能リモートセンシング画像において,100万以上のインスタンスと15,000以上の画像を含む新しいベンチマークデータセットを提案する。
FAIR1Mデータセットのすべてのオブジェクトは、指向境界ボックスによって5つのカテゴリと37のサブカテゴリに関してアノテートされます。
論文 参考訳(メタデータ) (2021-03-09T17:20:15Z) - Is Depth Really Necessary for Salient Object Detection? [50.10888549190576]
本稿では,RGB情報のみを推論の入力とする統合深度認識フレームワークの実現に向けた最初の試みを行う。
5つの公開RGB SODベンチマークの最先端のパフォーマンスを上回るだけでなく、5つのベンチマークのRGBDベースのメソッドを大きく上回っている。
論文 参考訳(メタデータ) (2020-05-30T13:40:03Z) - Drone-based RGB-Infrared Cross-Modality Vehicle Detection via
Uncertainty-Aware Learning [59.19469551774703]
ドローンによる車両検出は、空中画像中の車両の位置とカテゴリーを見つけることを目的としている。
我々はDroneVehicleと呼ばれる大規模ドローンベースのRGB赤外線車両検出データセットを構築した。
私たちのDroneVehicleは28,439RGBの赤外線画像を収集し、都市道路、住宅地、駐車場、その他のシナリオを昼から夜までカバーしています。
論文 参考訳(メタデータ) (2020-03-05T05:29:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。