論文の概要: MODETR: Moving Object Detection with Transformers
- arxiv url: http://arxiv.org/abs/2106.11422v1
- Date: Mon, 21 Jun 2021 21:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-23 15:10:26.294857
- Title: MODETR: Moving Object Detection with Transformers
- Title(参考訳): MODETR:トランスを用いた移動物体検出
- Authors: Eslam Mohamed, Ahmad El-Sallab
- Abstract要約: 移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本研究では,移動物体検出TRansformerネットワークであるMODETRを提案する。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Moving Object Detection (MOD) is a crucial task for the Autonomous Driving
pipeline. MOD is usually handled via 2-stream convolutional architectures that
incorporates both appearance and motion cues, without considering the
inter-relations between the spatial or motion features. In this paper, we
tackle this problem through multi-head attention mechanisms, both across the
spatial and motion streams. We propose MODETR; a Moving Object DEtection
TRansformer network, comprised of multi-stream transformer encoders for both
spatial and motion modalities, and an object transformer decoder that produces
the moving objects bounding boxes using set predictions. The whole architecture
is trained end-to-end using bi-partite loss. Several methods of incorporating
motion cues with the Transformer model are explored, including two-stream RGB
and Optical Flow (OF) methods, and multi-stream architectures that take
advantage of sequence information. To incorporate the temporal information, we
propose a new Temporal Positional Encoding (TPE) approach to extend the Spatial
Positional Encoding(SPE) in DETR. We explore two architectural choices for
that, balancing between speed and time. To evaluate the our network, we perform
the MOD task on the KITTI MOD [6] data set. Results show significant 5% mAP of
the Transformer network for MOD over the state-of-the art methods. Moreover,
the proposed TPE encoding provides 10% mAP improvement over the SPE baseline.
- Abstract(参考訳): 移動物体検出(MOD)は、自律走行パイプラインにとって重要なタスクである。
MODは通常、2ストリームの畳み込みアーキテクチャによって処理され、空間的特徴と運動的特徴の相互関係を考慮せずに外観と動きの手がかりの両方を組み込む。
本稿では,空間的および動きの流れを横断するマルチヘッドアテンション機構を用いてこの問題に対処する。
本稿では,空間的および動作的モダリティを両立するマルチストリームトランスコーダからなる移動物体検出トランスフォーマーネットワークと,集合予測を用いた移動物体バウンディングボックスを生成するオブジェクトトランスフォーマーデコーダを提案する。
アーキテクチャ全体は、双方向の損失を使ってエンドツーエンドでトレーニングされる。
トランスフォーマーモデルにモーションキューを組み込む方法として,2ストリームのRGBと光フロー(OF)法,シーケンス情報を利用するマルチストリームアーキテクチャなどが検討されている。
時間情報を組み込むため,DeTRにおける空間的位置エンコーディング(SPE)を拡張するための時間的位置エンコーディング(TPE)手法を提案する。
スピードと時間のバランスをとりながら、2つのアーキテクチャ上の選択を検討します。
ネットワークを評価するために,KITTI MOD [6]データセット上でMODタスクを実行する。
以上の結果から,MOD用トランスフォーマーネットワークの5 5% mAP が得られた。
さらに、提案したTPEエンコーディングは、SPEベースラインに対して10%のmAP改善を提供する。
関連論文リスト
- SODFormer: Streaming Object Detection with Transformer Using Events and
Frames [31.293847706713052]
DAカメラは、非同期イベントとフレームの相補的な2つのモードをストリーミングする。
本稿では,SODFormerを用いた新しいストリーミングオブジェクト検出手法を提案する。
論文 参考訳(メタデータ) (2023-08-08T04:53:52Z) - Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual
Grounding [27.568879624013576]
マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
既存のエンコーダのみの接地フレームワークは、2次時間複雑性を持つ自己注意操作のために重い計算に悩まされている。
本稿では,動的MDETR(Dynamic Mutilmodal DETR)について述べる。
論文 参考訳(メタデータ) (2022-09-28T09:43:02Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TransVOD: End-to-end Video Object Detection with Spatial-Temporal
Transformers [96.981282736404]
時空間トランスフォーマアーキテクチャに基づく最初のエンドツーエンドビデオオブジェクト検出システムであるTransVODを提案する。
提案した TransVOD++ は,90.0% mAP の ImageNet VID の精度で,最先端のレコードを新たに設定する。
提案したTransVOD Liteは,約30FPSで動作する場合に,83.7%のmAPで最高の速度と精度のトレードオフを実現する。
論文 参考訳(メタデータ) (2022-01-13T16:17:34Z) - Unsupervised Motion Representation Learning with Capsule Autoencoders [54.81628825371412]
Motion Capsule Autoencoder (MCAE) は、2レベル階層のモーションをモデル化する。
MCAEは、新しいTrajectory20モーションデータセットと、様々な現実世界の骨格に基づく人間のアクションデータセットで評価されている。
論文 参考訳(メタデータ) (2021-10-01T16:52:03Z) - TransMOT: Spatial-Temporal Graph Transformer for Multiple Object
Tracking [74.82415271960315]
映像内の物体間の空間的・時間的相互作用を効率的にモデル化するソリューションであるTransMOTを提案する。
TransMOTは従来のTransformerよりも計算効率が高いだけでなく、トラッキング精度も向上している。
提案手法は、MOT15、MOT16、MOT17、MOT20を含む複数のベンチマークデータセット上で評価される。
論文 参考訳(メタデータ) (2021-04-01T01:49:05Z) - Learning Comprehensive Motion Representation for Action Recognition [124.65403098534266]
2d cnnベースのメソッドは効率的であるが、各フレームに同じ2d畳み込みカーネルを適用することで冗長な機能が得られる。
最近の試みは、フレーム間接続を確立しながら、時間的受容野や高いレイテンシに苦しめながら、動き情報をキャプチャしようとするものである。
チャネルワイズゲートベクトルを用いた動的情報に関連するチャネルを適応的に強調するCME(Channel-wise Motion Enhancement)モジュールを提案する。
また,近接する特徴写像の点対点類似性に応じて,重要な目標を持つ領域に焦点をあてる空間的運動強調(SME)モジュールを提案する。
論文 参考訳(メタデータ) (2021-03-23T03:06:26Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。