論文の概要: STF: Spatio-Temporal Fusion Module for Improving Video Object Detection
- arxiv url: http://arxiv.org/abs/2402.10752v1
- Date: Fri, 16 Feb 2024 15:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 15:41:24.139188
- Title: STF: Spatio-Temporal Fusion Module for Improving Video Object Detection
- Title(参考訳): STF:ビデオオブジェクト検出を改善する時空間融合モジュール
- Authors: Noreen Anwar, Guillaume-Alexandre Bilodeau and Wassim Bouachir
- Abstract要約: ビデオ内のConsive frameは冗長性を含んでいるが、検出タスクの補完情報も含んでいる。
本稿では,この補完情報を活用するための時空間融合フレームワーク(STF)を提案する。
提案した時間融合モジュールは、ベースラインオブジェクト検出器と比較して検出性能が向上する。
- 参考スコア(独自算出の注目度): 7.213855322671065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consecutive frames in a video contain redundancy, but they may also contain
relevant complementary information for the detection task. The objective of our
work is to leverage this complementary information to improve detection.
Therefore, we propose a spatio-temporal fusion framework (STF). We first
introduce multi-frame and single-frame attention modules that allow a neural
network to share feature maps between nearby frames to obtain more robust
object representations. Second, we introduce a dual-frame fusion module that
merges feature maps in a learnable manner to improve them. Our evaluation is
conducted on three different benchmarks including video sequences of moving
road users. The performed experiments demonstrate that the proposed
spatio-temporal fusion module leads to improved detection performance compared
to baseline object detectors. Code is available at
https://github.com/noreenanwar/STF-module
- Abstract(参考訳): ビデオ内の連続フレームには冗長性が含まれているが、検出タスクに関連する補完情報も含まれている。
私たちの研究の目的は、この補完的な情報を利用して検出を改善することです。
そこで我々は時空間融合フレームワーク(STF)を提案する。
まず、ニューラルネットワークが近くのフレーム間で特徴マップを共有できるマルチフレームおよびシングルフレームアテンションモジュールを導入し、より堅牢なオブジェクト表現を得る。
第2に、特徴マップを学習可能な方法でマージして改善するデュアルフレーム融合モジュールを導入する。
本評価は移動道路利用者のビデオシーケンスを含む3つのベンチマークで実施した。
実験により,提案する時空間融合モジュールは,ベースライン物体検出器と比較して検出性能が向上することを示した。
コードはhttps://github.com/noreenanwar/STF-moduleで入手できる。
関連論文リスト
- LaneTCA: Enhancing Video Lane Detection with Temporal Context Aggregation [87.71768494466959]
LaneTCAは個々のビデオフレームをブリッジし、時間的コンテキストを効果的に集約する方法を探る。
本研究では,長期的・短期的文脈を抽象化するアキュマティブアテンションモジュールと隣接アテンションモジュールを開発する。
2つのモジュールは、トランスフォーマーアーキテクチャに基づいて慎重に設計されている。
論文 参考訳(メタデータ) (2024-08-25T14:46:29Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - SWTF: Sparse Weighted Temporal Fusion for Drone-Based Activity
Recognition [2.7677069267434873]
ドローンカメラによる人間活動認識(HAR)はコンピュータビジョン研究コミュニティから大きな注目を集めている。
本稿では,スパース標本化ビデオフレームを利用する新しいSparse Weighted Temporal Fusion (SWTF) モジュールを提案する。
提案されたモデルでは、各データセットで72.76%、92.56%、78.86%の精度が得られた。
論文 参考訳(メタデータ) (2022-11-10T12:45:43Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - Video Salient Object Detection via Contrastive Features and Attention
Modules [106.33219760012048]
本稿では,注目モジュールを持つネットワークを用いて,映像の有意な物体検出のためのコントラスト特徴を学習する。
コアテンションの定式化は、低レベル特徴と高レベル特徴を組み合わせるために用いられる。
提案手法は計算量が少なく,最先端の手法に対して良好に動作することを示す。
論文 参考訳(メタデータ) (2021-11-03T17:40:32Z) - FFAVOD: Feature Fusion Architecture for Video Object Detection [11.365829102707014]
本稿では,ビデオオブジェクト検出のための機能融合アーキテクチャとしてFFAVODを提案する。
まず,周辺フレーム間で特徴マップをネットワークで共有できる新しいビデオオブジェクト検出アーキテクチャを提案する。
提案したアーキテクチャと融合モジュールを用いることで,移動路利用者のシーケンスを含む2つのオブジェクト検出ベンチマークにおいて,3つのベースオブジェクト検出器の性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2021-09-15T13:53:21Z) - TF-Blender: Temporal Feature Blender for Video Object Detection [6.369234802164117]
孤立したビデオフレームが外観劣化に遭遇する可能性があるため、ビデオの対物検出は難しい課題である。
1) 時間的関係は、空間情報を保存するために、現在のフレームと隣接するフレームの関係を変調する。
その単純さのために、TF-Blenderはあらゆる検出ネットワークに懸命に接続して検出動作を改善することができる。
論文 参考訳(メタデータ) (2021-08-12T16:01:34Z) - Full-Duplex Strategy for Video Object Segmentation [141.43983376262815]
Full- Strategy Network (FSNet)はビデオオブジェクトセグメンテーション(VOS)のための新しいフレームワークである
我々のFSNetは、融合復号ステージの前に、クロスモーダルな機能パス(すなわち、送信と受信)を同時に実行します。
我々のFSNetは、VOSとビデオの有能なオブジェクト検出タスクの両方において、他の最先端技術よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-06T14:50:50Z) - Online Multiple Object Tracking with Cross-Task Synergy [120.70085565030628]
位置予測と埋め込み結合の相乗効果を考慮した新しい統一モデルを提案する。
この2つのタスクは、時間認識対象の注意と注意の注意、およびアイデンティティ認識メモリ集約モデルによってリンクされる。
論文 参考訳(メタデータ) (2021-04-01T10:19:40Z) - F2Net: Learning to Focus on the Foreground for Unsupervised Video Object
Segmentation [61.74261802856947]
本研究では,フォアグラウンド・ネットワーク(F2Net)について,フォアグラウンド・オブジェクトのイントラ・フレームの詳細について考察する。
提案するネットワークは,Siamese Module,Center Guiding Outearance Diffusion Module,Dynamic Information Fusion Moduleの3つの主要部分から構成される。
DAVIS2016、Youtube-object、FBMSデータセットの実験から、提案したF2Netは最先端のパフォーマンスを実現し、大幅な改善を実現している。
論文 参考訳(メタデータ) (2020-12-04T11:30:50Z) - Multi-View Adaptive Fusion Network for 3D Object Detection [14.506796247331584]
LiDAR-カメラ融合に基づく3Dオブジェクト検出は、自動運転の新たな研究テーマになりつつある。
本稿では,LiDARの鳥眼ビュー,LiDARレンジビュー,カメラビューイメージを3Dオブジェクト検出の入力として利用する,単一ステージ多視点融合フレームワークを提案する。
これら2つのコンポーネントを統合するために,MVAF-Netというエンドツーエンドの学習ネットワークを設計する。
論文 参考訳(メタデータ) (2020-11-02T00:06:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。