論文の概要: TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes
- arxiv url: http://arxiv.org/abs/2403.18238v1
- Date: Wed, 27 Mar 2024 04:03:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-28 18:26:17.625264
- Title: TAFormer: A Unified Target-Aware Transformer for Video and Motion Joint Prediction in Aerial Scenes
- Title(参考訳): TAFormer:空中シーンにおける映像・モーションジョイント予測のための統合ターゲット対応変圧器
- Authors: Liangyu Xu, Wanxuan Lu, Hongfeng Yu, Yongqiang Mao, Hanbo Bi, Chenglong Liu, Xian Sun, Kun Fu,
- Abstract要約: 本研究では,ターゲット認識空中映像予測(Target-Aware Aerial Video Prediction)と呼ばれる新しいタスクを導入する。
本研究では,空間的静的な注意と時間的ダイナミックな注意にビデオダイナミクスの学習を分離し,シーンの外観と動きを効果的にモデル化する時空間的注意(STA)を紹介した。
ぼかし予測における目標の識別の難しさを軽減するため,ターゲット感性ガウス損失(TSGL)を導入し,目標の位置と内容の両方に対するモデルの感度を高める。
- 参考スコア(独自算出の注目度): 14.924741503611749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As drone technology advances, using unmanned aerial vehicles for aerial surveys has become the dominant trend in modern low-altitude remote sensing. The surge in aerial video data necessitates accurate prediction for future scenarios and motion states of the interested target, particularly in applications like traffic management and disaster response. Existing video prediction methods focus solely on predicting future scenes (video frames), suffering from the neglect of explicitly modeling target's motion states, which is crucial for aerial video interpretation. To address this issue, we introduce a novel task called Target-Aware Aerial Video Prediction, aiming to simultaneously predict future scenes and motion states of the target. Further, we design a model specifically for this task, named TAFormer, which provides a unified modeling approach for both video and target motion states. Specifically, we introduce Spatiotemporal Attention (STA), which decouples the learning of video dynamics into spatial static attention and temporal dynamic attention, effectively modeling the scene appearance and motion. Additionally, we design an Information Sharing Mechanism (ISM), which elegantly unifies the modeling of video and target motion by facilitating information interaction through two sets of messenger tokens. Moreover, to alleviate the difficulty of distinguishing targets in blurry predictions, we introduce Target-Sensitive Gaussian Loss (TSGL), enhancing the model's sensitivity to both target's position and content. Extensive experiments on UAV123VP and VisDroneVP (derived from single-object tracking datasets) demonstrate the exceptional performance of TAFormer in target-aware video prediction, showcasing its adaptability to the additional requirements of aerial video interpretation for target awareness.
- Abstract(参考訳): ドローン技術が進歩するにつれて、無人航空機による航空調査が、現代の低高度リモートセンシングの主流となっている。
航空映像データの急増は、特に交通管理や災害対応といったアプリケーションにおいて、将来のシナリオや関心のあるターゲットの動作状態の正確な予測を必要とする。
既存の映像予測手法は、対象の運動状態を明示的にモデル化することの無視に苦しむ将来のシーン(映像フレーム)の予測にのみ焦点をあてる。
この問題に対処するために,ターゲット・アウェア・エアリアル・ビデオ予測(Target-Aware Aerial Video Prediction)という新しいタスクを導入する。
さらに,このタスクに特化したモデルであるTAFormerを設計し,映像とターゲットの動作状態の両方に統一的なモデリング手法を提供する。
具体的には、空間的静的な注意と時間的注意にビデオダイナミクスの学習を分離し、シーンの外観と動きを効果的にモデル化する時空間注意(STA)を導入する。
さらに,2組のメッセンジャートークンを通じて情報交換を容易にすることで,映像とターゲットの動きのモデリングをエレガントに統一する情報共有機構(ISM)を設計する。
さらに、ぼかし予測における目標の識別の難しさを軽減するために、ターゲット感性ガウス損失(TSGL)を導入し、ターゲットの位置と内容の両方に対するモデルの感度を高める。
UAV123VPとVisDroneVP(単目的追跡データセットに由来する)に関する大規模な実験は、ターゲット認識ビデオ予測におけるTAFormerの例外的な性能を示し、ターゲット認識のための空中ビデオ解釈の追加要件への適応性を示している。
関連論文リスト
- E-Motion: Future Motion Simulation via Event Sequence Diffusion [86.80533612211502]
イベントベースのセンサーは、これまで達成できなかった詳細と精度で将来の動きを予測するユニークな機会を提供する可能性がある。
本稿では,映像拡散モデルの強力な学習能力とイベントカメラのリッチな動作情報とを,モーションシミュレーションフレームワークとして統合することを提案する。
本研究は,コンピュータビジョンシステムの解釈能力と予測精度の向上に向けた今後の研究の方向性を示唆するものである。
論文 参考訳(メタデータ) (2024-10-11T09:19:23Z) - MADiff: Motion-Aware Mamba Diffusion Models for Hand Trajectory Prediction on Egocentric Videos [27.766405152248055]
手の軌道予測は人間の動きのパターンを理解する上で重要な役割を担っている。
しかし,高レベルの人間の意図を合理的な時間的因果関係と一致させることは,エゴセントリックなビデオのみが利用可能である場合には困難である。
拡散モデルを用いて将来のハンドウェイポイントを予測するMADiffと呼ばれる新しいハンドトラジェクトリ予測手法を提案する。
論文 参考訳(メタデータ) (2024-09-04T12:06:33Z) - ETTrack: Enhanced Temporal Motion Predictor for Multi-Object Tracking [4.250337979548885]
時間的動き予測器であるETTrackを用いた動きに基づくMOT手法を提案する。
具体的には、動作予測器は、変換器モデルと時間畳み込みネットワーク(TCN)を統合して、短期および長期の動作パターンをキャプチャする。
本研究では,DanceTrackとSportsMOTの最先端トラッカーと比較して,ETTrackの競争性能が向上していることを示す。
論文 参考訳(メタデータ) (2024-05-24T17:51:33Z) - TK-Planes: Tiered K-Planes with High Dimensional Feature Vectors for Dynamic UAV-based Scenes [58.180556221044235]
本研究では,無人航空機(UAV)の認識における合成データと実世界データとの領域ギャップを埋める新しい手法を提案する。
私たちの定式化は、小さな動く物体や人間の行動からなる動的なシーンのために設計されています。
我々は,Okutama ActionやUG2など,挑戦的なデータセットの性能を評価する。
論文 参考訳(メタデータ) (2024-05-04T21:55:33Z) - OFMPNet: Deep End-to-End Model for Occupancy and Flow Prediction in Urban Environment [0.0]
環境中の全ての動的オブジェクトの将来の挙動を予測するために,エンド・ツー・エンドのニューラルネットワーク手法を提案する。
本稿では, 終点誤差の大幅な低減を図った新しい時間重み付きモーションフロー損失を提案する。
論文 参考訳(メタデータ) (2024-04-02T19:37:58Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - Multi-Object Tracking with Deep Learning Ensemble for Unmanned Aerial
System Applications [0.0]
多目的追跡(MOT)は、軍事防衛分野における状況認識の重要な構成要素である。
本稿では,リアルタイムな状況下での騒音に対応するために,頑健なオブジェクト追跡アーキテクチャを提案する。
本稿では,遅延空間における実体軌道の予測にシーケンス・ツー・シーケンス・アーキテクチャを用いる,Deep Extended Kalman Filter (DeepEKF) と呼ばれるキネマティックな予測モデルを提案する。
論文 参考訳(メタデータ) (2021-10-05T13:50:38Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。