論文の概要: ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer
- arxiv url: http://arxiv.org/abs/2107.05887v1
- Date: Tue, 13 Jul 2021 07:38:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-14 14:42:09.687044
- Title: ST-DETR: Spatio-Temporal Object Traces Attention Detection Transformer
- Title(参考訳): ST-DETR:時空間オブジェクトトレースアテンション検出変換器
- Authors: Eslam Mohamed and Ahmad El-Sallab
- Abstract要約: 本研究では,時間的フレーム列からのオブジェクト検出のための時空間変換器アーキテクチャを提案する。
両次元にまたがる特徴相関を利用するために, 注意機構をフルに活用する。
その結果,KITTI MODデータセットでは5%のmAP改善が見られた。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose ST-DETR, a Spatio-Temporal Transformer-based architecture for
object detection from a sequence of temporal frames. We treat the temporal
frames as sequences in both space and time and employ the full attention
mechanisms to take advantage of the features correlations over both dimensions.
This treatment enables us to deal with frames sequence as temporal object
features traces over every location in the space. We explore two possible
approaches; the early spatial features aggregation over the temporal dimension,
and the late temporal aggregation of object query spatial features. Moreover,
we propose a novel Temporal Positional Embedding technique to encode the time
sequence information. To evaluate our approach, we choose the Moving Object
Detection (MOD)task, since it is a perfect candidate to showcase the importance
of the temporal dimension. Results show a significant 5% mAP improvement on the
KITTI MOD dataset over the 1-step spatial baseline.
- Abstract(参考訳): 時間的フレーム列からのオブジェクト検出のための時空間トランスフォーマーアーキテクチャST-DETRを提案する。
時間的フレームを空間と時間の両方のシーケンスとして扱い、両方の次元における特徴相関を生かした完全な注意機構を用いる。
この処理により、時間的対象が空間内のすべての位置をトレースするので、フレームシーケンスを処理できる。
初期の空間的特徴を時間的次元上でアグリゲーションする手法と,オブジェクトクエリ空間的特徴の遅い時間的アグリゲーションについて検討する。
さらに,時系列情報をエンコードする新しい時間的位置埋め込み手法を提案する。
提案手法を評価するために,時間次元の重要性を示すのに最適な候補であるため,移動物体検出(MOD)タスクを選択する。
その結果,KITTI MODデータセットでは1段階の空間ベースラインよりも5%のmAP改善が見られた。
関連論文リスト
- STCMOT: Spatio-Temporal Cohesion Learning for UAV-Based Multiple Object Tracking [13.269416985959404]
無人航空機(UAV)ビデオにおける複数物体追跡(MOT)は、コンピュータビジョンにおける多様な用途において重要である。
時空間結合型多目的追跡フレームワーク(STCMOT)を提案する。
歴史的埋め込み機能を用いて,ReIDの表現と検出機能を逐次的にモデル化する。
我々のフレームワークはMOTAとIDF1メトリクスで新しい最先端のパフォーマンスを設定します。
論文 参考訳(メタデータ) (2024-09-17T14:34:18Z) - PTT: Point-Trajectory Transformer for Efficient Temporal 3D Object Detection [66.94819989912823]
時間的3次元物体検出を効率的に行うために,長期記憶が可能な点トラジェクトリ変換器を提案する。
私たちは、メモリバンクのストレージ要件を最小限に抑えるために、現在のフレームオブジェクトのポイントクラウドとその履歴トラジェクトリを入力として使用します。
大規模データセットに対する広範な実験を行い、我々のアプローチが最先端の手法に対してうまく機能することを実証した。
論文 参考訳(メタデータ) (2023-12-13T18:59:13Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - PTSEFormer: Progressive Temporal-Spatial Enhanced TransFormer Towards
Video Object Detection [28.879484515844375]
統合強化のための時間情報と空間情報の両方を導入するための進歩的な方法を導入する。
PTSEFormerは、ImageNet VIDデータセットで88.1%のmAPを達成しながら、重い後処理手順を避けるために、エンドツーエンドのスタイルに従っている。
論文 参考訳(メタデータ) (2022-09-06T06:32:57Z) - Motion-aware Memory Network for Fast Video Salient Object Detection [15.967509480432266]
我々は、隣接するフレームから現在のフレームの有用な時間情報をVSODの時間枝として抽出する時空間メモリ(STM)ベースのネットワークを設計する。
符号化段階では、電流とその隣接するフレームから高次特徴を用いて高次時間特徴を生成する。
復号化段階では,空間的および時間的分岐に対する効果的な融合戦略を提案する。
提案モデルでは,光学フローなどの前処理を必要とせず,推定時に100FPS近い速度に達することができる。
論文 参考訳(メタデータ) (2022-08-01T15:56:19Z) - SpOT: Spatiotemporal Modeling for 3D Object Tracking [68.12017780034044]
3Dマルチオブジェクトトラッキングは、常にすべてのモバイル時間を特定することを目的としている。
現在の3Dトラッキング手法は、抽象化された情報と限られた歴史に依存している。
本研究では,空間的情報と時間的情報の両方を活用するシーンの全体的表現を開発する。
論文 参考訳(メタデータ) (2022-07-12T21:45:49Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - LiDAR-based Online 3D Video Object Detection with Graph-based Message
Passing and Spatiotemporal Transformer Attention [100.52873557168637]
3Dオブジェクト検出器は、通常は単一フレームの検出にフォーカスするが、連続する点のクラウドフレームでは情報を無視する。
本稿では,ポイントシーケンスで動作するエンドツーエンドのオンライン3Dビデオオブジェクト検出器を提案する。
論文 参考訳(メタデータ) (2020-04-03T06:06:52Z) - Spatio-temporal Tubelet Feature Aggregation and Object Linking in Videos [2.4923006485141284]
論文は、オブジェクト分類を改善するために、利用可能なビデオの時間情報をどのように活用するかという問題に対処する。
本稿では,FANetと呼ばれる2段階の物体検出器を提案する。
論文 参考訳(メタデータ) (2020-04-01T13:52:03Z) - A Spatial-Temporal Attentive Network with Spatial Continuity for
Trajectory Prediction [74.00750936752418]
空間連続性をもつ空間時間減衰ネットワーク(STAN-SC)という新しいモデルを提案する。
まず、最も有用かつ重要な情報を探るために、空間的時間的注意機構を提示する。
第2に、生成軌道の空間的連続性を維持するために、シーケンスと瞬間状態情報に基づく共同特徴系列を実行する。
論文 参考訳(メタデータ) (2020-03-13T04:35:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。