論文の概要: Track Targets by Dense Spatio-Temporal Position Encoding
- arxiv url: http://arxiv.org/abs/2210.09455v1
- Date: Mon, 17 Oct 2022 22:04:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 13:29:58.945419
- Title: Track Targets by Dense Spatio-Temporal Position Encoding
- Title(参考訳): Dense Spatio-Temporal Position Encoding によるトラックターゲット
- Authors: Jinkun Cao, Hao Wu, Kris Kitani
- Abstract要約: 変換器を用いた動画における目標追跡のための目標位置を符号化する新しいパラダイムを提案する。
提案した符号化位置は、外観マッチングを超えたフレーム間のターゲットを関連付ける位置情報を提供する。
提案する特徴ベクトルの代わりに2次元CNN機能に符号化を適用し,位置情報の喪失を回避する。
- 参考スコア(独自算出の注目度): 27.06820571703848
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a novel paradigm to encode the position of targets
for target tracking in videos using transformers. The proposed paradigm, Dense
Spatio-Temporal (DST) position encoding, encodes spatio-temporal position
information in a pixel-wise dense fashion. The provided position encoding
provides location information to associate targets across frames beyond
appearance matching by comparing objects in two bounding boxes. Compared to the
typical transformer positional encoding, our proposed encoding is applied to
the 2D CNN features instead of the projected feature vectors to avoid losing
positional information. Moreover, the designed DST encoding can represent the
location of a single-frame object and the evolution of the location of the
trajectory among frames uniformly. Integrated with the DST encoding, we build a
transformer-based multi-object tracking model. The model takes a video clip as
input and conducts the target association in the clip. It can also perform
online inference by associating existing trajectories with objects from the
new-coming frames. Experiments on video multi-object tracking (MOT) and
multi-object tracking and segmentation (MOTS) datasets demonstrate the
effectiveness of the proposed DST position encoding.
- Abstract(参考訳): 本研究では,トランスフォーマーを用いたビデオにおけるターゲット追跡のためのターゲット位置をエンコードする新しいパラダイムを提案する。
提案するパラダイムであるDense Spatio-Temporal(DST)位置エンコーディングは,画素単位の高密度な方法で時空間位置情報を符号化する。
提供された位置エンコーディングは、2つのバウンディングボックス内のオブジェクトを比較することにより、外観マッチングを超えたフレーム間のターゲットを関連付ける位置情報を提供する。
提案手法は,典型的なトランスフォーマー位置符号化と比較して,投影された特徴ベクトルの代わりに2次元CNN特徴量に適用し,位置情報の喪失を回避する。
さらに、設計されたDST符号化は、単一フレームオブジェクトの位置と、フレーム間の軌道の位置の進化を均一に表現することができる。
DSTエンコーディングと統合して、トランスフォーマーに基づくマルチオブジェクト追跡モデルを構築する。
モデルは、ビデオクリップを入力として、クリップ内のターゲットアソシエーションを実行する。
また、既存のトラジェクトリと新しいフレームからのオブジェクトを関連付けることで、オンライン推論を行うこともできる。
ビデオ多目的追跡(MOT)と多目的追跡・セグメンテーション(MOTS)データセットの実験は、提案したDST位置符号化の有効性を示す。
関連論文リスト
- Transformer-based stereo-aware 3D object detection from binocular images [82.85433941479216]
両眼3次元物体検出におけるトランスフォーマーのモデル設計について検討する。
この目的を達成するために、ステレオ対応の3Dオブジェクト検出器TS3Dを提案する。
提案したTS3Dは、KITTIテストセット上で41.29%のモードレートカー検出精度を実現し、各両眼画像対から物体を検出するのに88msを要した。
論文 参考訳(メタデータ) (2023-04-24T08:29:45Z) - Siamese Network with Interactive Transformer for Video Object
Segmentation [34.202137199782804]
本稿では,SITVOSと呼ばれる対話型トランスフォーマーを設計したネットワークを提案し,過去のフレームから現在のフレームへの効果的なコンテキスト伝搬を実現する。
過去のフレームと現在のフレームの両方のバックボーン機能を抽出するためにバックボーンアーキテクチャを使用します。
論文 参考訳(メタデータ) (2021-12-28T03:38:17Z) - Geometry Attention Transformer with Position-aware LSTMs for Image
Captioning [8.944233327731245]
本稿では,GAT(Geometry Attention Transformer)モデルを提案する。
幾何学的情報をさらに活用するために、2つの新しい幾何学的アーキテクチャが設計されている。
我々のGATは、しばしば最先端の画像キャプションモデルより優れている。
論文 参考訳(メタデータ) (2021-10-01T11:57:50Z) - Collaborative Spatial-Temporal Modeling for Language-Queried Video Actor
Segmentation [90.74732705236336]
言語クエリビデオアクターセグメンテーションは、ターゲットフレーム内の自然言語クエリで記述されたアクションを実行するアクターのピクセルマスクを予測することを目的としています。
本研究では,ビデオクリップ上に3次元時間エンコーダを内蔵した空間時空間エンコーダ・デコーダフレームワークと,対象フレーム上に2次元空間エンコーダを組み込んで,クエリアクターを正確にセグメント化することを提案する。
論文 参考訳(メタデータ) (2021-05-14T13:27:53Z) - Learning Spatio-Temporal Transformer for Visual Tracking [108.11680070733598]
本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
論文 参考訳(メタデータ) (2021-03-31T15:19:19Z) - TrackFormer: Multi-Object Tracking with Transformers [92.25832593088421]
TrackFormerはエンコーダデコーダトランスフォーマーアーキテクチャに基づくエンドツーエンドのマルチオブジェクトトラッキングおよびセグメンテーションモデルです。
新しいトラッククエリはDETRオブジェクト検出器によって生成され、時間とともに対応するオブジェクトの位置を埋め込む。
trackformerは新しいトラッキング・バイ・アテンションパラダイムでフレーム間のシームレスなデータ関連付けを実現する。
論文 参考訳(メタデータ) (2021-01-07T18:59:29Z) - Temporal-Channel Transformer for 3D Lidar-Based Video Object Detection
in Autonomous Driving [121.44554957537613]
我々は,リダデータから映像オブジェクトを検出するための時空間領域とチャネル領域の関係をモデル化する,テンポラル・チャネル変換器(Temporal-Channel Transformer)を提案する。
具体的には、トランスの時間チャネルエンコーダは、異なるチャネルやフレームの情報をエンコードするように設計されている。
我々は, nuScenesベンチマークを用いて, 格子ボクセルを用いた3次元物体検出における最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-27T09:35:39Z) - Motion-Attentive Transition for Zero-Shot Video Object Segmentation [99.44383412488703]
ゼロショットオブジェクトセグメンテーションのためのモーション・アテンタティブ・トランジション・ネットワーク(MATNet)を提案する。
モーション・アテンティブ・トランジション (MAT) と呼ばれる非対称のアテンションブロックは、2ストリームエンコーダ内に設計されている。
このように、エンコーダは深く相互に作用し、物体の動きと外観の間の密な階層的な相互作用を可能にする。
論文 参考訳(メタデータ) (2020-03-09T16:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。