論文の概要: DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene
Change Detection
- arxiv url: http://arxiv.org/abs/2103.00879v1
- Date: Mon, 1 Mar 2021 10:01:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-03 16:54:45.153588
- Title: DR-TANet: Dynamic Receptive Temporal Attention Network for Street Scene
Change Detection
- Title(参考訳): DR-TANet:街路変化検出のための動的受容時間注意ネットワーク
- Authors: Shuo Chen, Kailun Yang, Rainer Stiefelhagen
- Abstract要約: 本稿では,時間的注意の提示と時間的注意の依存性スコープサイズが変化検出の性能に及ぼす影響について検討する。
GSV', TSUNAMI', VL-CMU-CD'のストリートシーンデータセットでは, ベルや笛を使わずに新たな最先端のスコアが確立され, 優れた性能が得られる。
- 参考スコア(独自算出の注目度): 35.29786193920396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Street scene change detection continues to capture researchers' interests in
the computer vision community. It aims to identify the changed regions of the
paired street-view images captured at different times. The state-of-the-art
network based on the encoder-decoder architecture leverages the feature maps at
the corresponding level between two channels to gain sufficient information of
changes. Still, the efficiency of feature extraction, feature correlation
calculation, even the whole network requires further improvement. This paper
proposes the temporal attention and explores the impact of the dependency-scope
size of temporal attention on the performance of change detection. In addition,
based on the Temporal Attention Module (TAM), we introduce a more efficient and
light-weight version - Dynamic Receptive Temporal Attention Module (DRTAM) and
propose the Concurrent Horizontal and Vertical Attention (CHVA) to improve the
accuracy of the network on specific challenging entities. On street scene
datasets `GSV', `TSUNAMI' and `VL-CMU-CD', our approach gains excellent
performance, establishing new state-of-the-art scores without bells and
whistles, while maintaining high efficiency applicable in autonomous vehicles.
- Abstract(参考訳): ストリートシーン変化の検出は、コンピュータビジョンコミュニティにおける研究者の関心を捉え続けている。
異なる時間に撮影されたストリートビュー画像の変化領域を特定することを目的としている。
エンコーダ・デコーダアーキテクチャに基づく最先端ネットワークは、2つのチャネル間の対応するレベルの特徴マップを利用して、変更の十分な情報を取得する。
それでも、特徴抽出の効率、特徴相関計算、ネットワーク全体においてもさらなる改善が必要となる。
本稿では,時間的注意の提示と時間的注意の依存性スコープサイズが変化検出の性能に及ぼす影響について検討する。
さらに、TAM(Temporal Attention Module)に基づき、より効率的で軽量なDRTAM(Dynamic Receptive Temporal Attention Module)を導入し、特定の挑戦的エンティティ上でのネットワークの正確性を改善するために、CHVA(Concurrent Horizontal and Vertical Attention)を提案する。
ストリートシーンのデータセット「GSV」「TSUNAMI」「VL-CMU-CD」では、優れた性能を発揮し、ベルやホイッスルのない最新のスコアを確立し、自動運転車に適用可能な高効率を維持します。
関連論文リスト
- Elastic Interaction Energy-Informed Real-Time Traffic Scene Perception [8.429178814528617]
EIEGSegという名前のトポロジ対応エネルギー損失関数に基づくネットワークトレーニング戦略を提案する。
EIEGSegは、リアルタイムの交通シーン認識におけるマルチクラスセグメンテーションのために設計されている。
以上の結果から,EIEGSegは,特にリアルタイム軽量ネットワークにおいて,性能を継続的に向上することを示す。
論文 参考訳(メタデータ) (2023-10-02T01:30:42Z) - Remote Sensing Image Change Detection with Graph Interaction [1.8579693774597708]
本稿では,BGINet-CDを用いたリモートセンシングによる画像変化検出のためのバイテンポラル画像グラフインタラクションネットワークを提案する。
本モデルは,GZ CDデータセット上の他の最先端手法(SOTA)と比較して,優れた性能を示す。
論文 参考訳(メタデータ) (2023-07-05T03:32:49Z) - Deeply-Coupled Convolution-Transformer with Spatial-temporal
Complementary Learning for Video-based Person Re-identification [91.56939957189505]
本稿では,高性能ビデオベース Re-ID のための新しい時空間補完学習フレームワークである Deeply-Coupled Convolution-Transformer (DCCT) を提案する。
私たちのフレームワークは、ほとんどの最先端のメソッドよりも優れたパフォーマンスを実現できます。
論文 参考訳(メタデータ) (2023-04-27T12:16:44Z) - DroneAttention: Sparse Weighted Temporal Attention for Drone-Camera
Based Activity Recognition [2.705905918316948]
ドローン搭載カメラを用いた人間行動認識(HAR)は近年,コンピュータビジョン研究コミュニティから大きな関心を集めている。
本研究では, 疎サンプリングされたビデオフレームをグローバルに重み付けした時間的注意力を得るために, 新たにSparse Weighted Temporal Attention (SWTA) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-12-07T00:33:40Z) - DetectorNet: Transformer-enhanced Spatial Temporal Graph Neural Network
for Traffic Prediction [4.302265301004301]
高カバレッジの検出器は、経路計画や交通渋滞の回避において、道路利用者にとって直接的かつ遠回りの利点がある。
これらのデータを活用すると、動的時間的相関、道路条件の変化による動的空間的相関など、ユニークな課題が提示される。
本稿では,Transformer が拡張した DetectorNet を提案し,これらの課題に対処する。
論文 参考訳(メタデータ) (2021-10-19T03:47:38Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Spatio-temporal Modeling for Large-scale Vehicular Networks Using Graph
Convolutional Networks [110.80088437391379]
SMARTと呼ばれるグラフベースのフレームワークが提案され、大規模な地理的領域にわたるV2I通信遅延の統計をモデル化し、追跡する。
深層Q-networksアルゴリズムと統合したグラフ畳み込みネットワークを用いたグラフ再構築型手法を開発する。
その結果,提案手法は,モデル化の精度と効率と,大規模車両ネットワークにおける遅延性能を有意に向上させることが示された。
論文 参考訳(メタデータ) (2021-03-13T06:56:29Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。