論文の概要: Erasure-based Interaction Network for RGBT Video Object Detection and A
Unified Benchmark
- arxiv url: http://arxiv.org/abs/2308.01630v1
- Date: Thu, 3 Aug 2023 09:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-04 14:36:27.849298
- Title: Erasure-based Interaction Network for RGBT Video Object Detection and A
Unified Benchmark
- Title(参考訳): RGBTビデオオブジェクト検出のための消去型インタラクションネットワークと統一ベンチマーク
- Authors: Zhengzheng Tu, Qishun Wang, Hongshun Wang, Kunpeng Wang, Chenglong Li
- Abstract要約: この研究は、RGB-thermal (RGBT) VODと呼ばれる新しいコンピュータビジョンタスクを導入する。
従来のビデオオブジェクト検出(VOD)手法は時間的情報を利用することが多い。
熱画像特徴の助けを借りてRGB特徴のノイズを消すために用いられる負のアクティベーション関数を開発した。
- 参考スコア(独自算出の注目度): 9.979933455242774
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, many breakthroughs are made in the field of Video Object Detection
(VOD), but the performance is still limited due to the imaging limitations of
RGB sensors in adverse illumination conditions. To alleviate this issue, this
work introduces a new computer vision task called RGB-thermal (RGBT) VOD by
introducing the thermal modality that is insensitive to adverse illumination
conditions. To promote the research and development of RGBT VOD, we design a
novel Erasure-based Interaction Network (EINet) and establish a comprehensive
benchmark dataset (VT-VOD50) for this task. Traditional VOD methods often
leverage temporal information by using many auxiliary frames, and thus have
large computational burden. Considering that thermal images exhibit less noise
than RGB ones, we develop a negative activation function that is used to erase
the noise of RGB features with the help of thermal image features. Furthermore,
with the benefits from thermal images, we rely only on a small temporal window
to model the spatio-temporal information to greatly improve efficiency while
maintaining detection accuracy.
VT-VOD50 dataset consists of 50 pairs of challenging RGBT video sequences
with complex backgrounds, various objects and different illuminations, which
are collected in real traffic scenarios. Extensive experiments on VT-VOD50
dataset demonstrate the effectiveness and efficiency of our proposed method
against existing mainstream VOD methods. The code of EINet and the dataset will
be released to the public for free academic usage.
- Abstract(参考訳): 近年,ビデオ物体検出 (VOD) の分野では多くのブレークスルーがおこなわれているが,RGBセンサの照明条件が悪くなるため,その性能は依然として限られている。
この問題を軽減するために、この研究はRGB-thermal (RGBT) VODと呼ばれる新しいコンピュータビジョンタスクを導入する。
RGBT VOOD の研究開発を促進するため,新しい消去型インタラクションネットワーク (EINet) を設計し,このタスクのための総合ベンチマークデータセット (VT-VOD50) を確立する。
従来のvod法は、多くの補助フレームを用いて時間情報を利用することが多いため、計算の負担が大きい。
熱画像がRGB画像よりもノイズが少ないことを考慮し、熱画像特徴の助けを借りてRGB特徴のノイズを消し去るために用いられる負のアクティベーション関数を開発した。
さらに,熱画像の利点により,時空間情報をモデル化するための小さな時間窓のみに依存し,検出精度を維持しつつ効率を大幅に向上させる。
VT-VOD50データセットは50対の挑戦的なRGBTビデオシーケンスで構成され、複雑な背景、さまざまなオブジェクト、さまざまな照明が実際のトラフィックシナリオで収集される。
VT-VOD50データセットの大規模な実験により,提案手法の有効性と有効性を示した。
EINetとデータセットのコードは、無料の学術的利用のために一般公開される。
関連論文リスト
- Rethinking RGB-D Fusion for Semantic Segmentation in Surgical Datasets [5.069884983892437]
本稿では,SurgDepth という,シンプルで効果的なマルチモーダル(RGBと深さ)トレーニングフレームワークを提案する。
このタスクに適用可能なすべての公開データセットに対して、最先端(SOTA)結果を示す。
ベンチマークデータセットには、EndoVis2022、AutoLapro、LapI2I、EndoVis 2017などの広範な実験を行っている。
論文 参考訳(メタデータ) (2024-07-29T05:35:51Z) - BVI-RLV: A Fully Registered Dataset and Benchmarks for Low-Light Video Enhancement [56.97766265018334]
本稿では,2つの異なる低照度条件下での様々な動きシナリオを持つ40のシーンからなる低照度映像データセットを提案する。
我々は、プログラム可能なモータードリーを用いて、通常の光で捉えた完全に登録された地上真実データを提供し、異なる光レベルにわたるピクセルワイドフレームアライメントのための画像ベースアプローチによりそれを洗練する。
実験の結果,Low-light Video enhancement (LLVE) における完全登録ビデオペアの重要性が示された。
論文 参考訳(メタデータ) (2024-07-03T22:41:49Z) - Chasing Day and Night: Towards Robust and Efficient All-Day Object Detection Guided by an Event Camera [8.673063170884591]
EOLOは、RGBとイベントモダリティの両方を融合させることで、堅牢で効率的な全日検出を実現する、新しいオブジェクト検出フレームワークである。
我々のEOLOフレームワークは、イベントの非同期特性を効率的に活用するために、軽量スパイキングニューラルネットワーク(SNN)に基づいて構築されている。
論文 参考訳(メタデータ) (2023-09-17T15:14:01Z) - Attentive Multimodal Fusion for Optical and Scene Flow [24.08052492109655]
既存の方法は通常、RGB画像のみに依存するか、後段のモダリティを融合させる。
本稿では,センサモード間の早期情報融合を可能にするFusionRAFTという新しいディープニューラルネットワーク手法を提案する。
提案手法は,RGB画像に影響を及ぼすノイズや低照度条件の存在下での堅牢性の向上を示す。
論文 参考訳(メタデータ) (2023-07-28T04:36:07Z) - Mirror Complementary Transformer Network for RGB-thermal Salient Object
Detection [16.64781797503128]
RGB-熱的物体検出(RGB-T SOD)は、視光対と熱赤外画像対の一般的な顕著な物体を見つけることを目的としている。
本稿では,RGB-T SODのための新しいミラー補完トランスフォーマネットワーク(MCNet)を提案する。
ベンチマークとVT723データセットの実験により、提案手法は最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2022-07-07T20:26:09Z) - Spatial-Temporal Frequency Forgery Clue for Video Forgery Detection in
VIS and NIR Scenario [87.72258480670627]
既存の周波数領域に基づく顔偽造検出手法では、GAN鍛造画像は、実際の画像と比較して、周波数スペクトルに明らかな格子状の視覚的アーチファクトを持つ。
本稿では,コサイン変換に基づくフォージェリークリュー拡張ネットワーク(FCAN-DCT)を提案し,より包括的な時空間特徴表現を実現する。
論文 参考訳(メタデータ) (2022-07-05T09:27:53Z) - PVDD: A Practical Video Denoising Dataset with Real-World Dynamic Scenes [56.4361151691284]
PVDD(Practical Video Denoising dataset)は,200個のノイズクリーンな動的ビデオペアをsRGBおよびRAW形式で格納する。
限られた動き情報からなる既存のデータセットと比較すると、PVDDは自然な動きの変化する動的なシーンをカバーしている。
論文 参考訳(メタデータ) (2022-07-04T12:30:22Z) - Glass Segmentation with RGB-Thermal Image Pairs [16.925196782387857]
本稿では,RGBと熱画像を組み合わせた新しいガラス分割法を提案する。
シーンのガラス領域は、RGB画像だけでなく、RGB画像と熱画像の対でより区別可能である。
論文 参考訳(メタデータ) (2022-04-12T00:20:22Z) - Meta-UDA: Unsupervised Domain Adaptive Thermal Object Detection using
Meta-Learning [64.92447072894055]
赤外線(IR)カメラは、照明条件や照明条件が悪ければ頑丈である。
既存のUDA手法を改善するためのアルゴリズムメタ学習フレームワークを提案する。
KAISTおよびDSIACデータセットのための最先端熱検出器を作成した。
論文 参考訳(メタデータ) (2021-10-07T02:28:18Z) - Energy-Efficient Model Compression and Splitting for Collaborative
Inference Over Time-Varying Channels [52.60092598312894]
本稿では,エッジノードとリモートノード間のモデル圧縮と時間変化モデル分割を利用して,エッジデバイスにおける総エネルギーコストを削減する手法を提案する。
提案手法は, 検討されたベースラインと比較して, エネルギー消費が最小限であり, 排出コストが$CO$となる。
論文 参考訳(メタデータ) (2021-06-02T07:36:27Z) - MobileSal: Extremely Efficient RGB-D Salient Object Detection [62.04876251927581]
本稿では,効率的なRGB-Dサルエント物体検出(SOD)に焦点を当てた新しいネットワーク,メソッド名を提案する。
RGB-D SODのためのモバイルネットワークの特徴表現能力を強化するために,暗黙的深度復元(IDR)手法を提案する。
IDRとCPRを組み込むことで、7つの挑戦的なRGB-D SODデータセット上のsArtメソッドに対してメソッド名が好ましい。
論文 参考訳(メタデータ) (2020-12-24T04:36:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。