論文の概要: One Homography is All You Need: IMM-based Joint Homography and Multiple Object State Estimation
- arxiv url: http://arxiv.org/abs/2409.02562v2
- Date: Thu, 14 Nov 2024 10:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-15 15:22:04.828272
- Title: One Homography is All You Need: IMM-based Joint Homography and Multiple Object State Estimation
- Title(参考訳): IMMを用いた共同ホログラフィーと複数物体状態推定
- Authors: Paul Johannes Claasen, Johan Pieter de Villiers,
- Abstract要約: IMMジョイントホモグラフィー状態推定(IMM-JHSE)を提案する。
IMM-JHSEは、唯一の付加的な3D情報として初期ホモグラフィー推定を使用する。
IMM-JHSEは、MOT17、MOT20、KITTI-carデータセット上での競合性能を提供する。
- 参考スコア(独自算出の注目度): 2.09942566943801
- License:
- Abstract: A novel online MOT algorithm, IMM Joint Homography State Estimation (IMM-JHSE), is proposed. IMM-JHSE uses an initial homography estimate as the only additional 3D information, whereas other 3D MOT methods use regular 3D measurements. By jointly modelling the homography matrix and its dynamics as part of track state vectors, IMM-JHSE removes the explicit influence of camera motion compensation techniques on predicted track position states, which was prevalent in previous approaches. Expanding upon this, static and dynamic camera motion models are combined using an IMM filter. A simple bounding box motion model is used to predict bounding box positions to incorporate image plane information. In addition to applying an IMM to camera motion, a non-standard IMM approach is applied where bounding-box-based BIoU scores are mixed with ground-plane-based Mahalanobis distances in an IMM-like fashion to perform association only, making IMM-JHSE robust to motion away from the ground plane. Finally, IMM-JHSE makes use of dynamic process and measurement noise estimation techniques. IMM-JHSE improves upon related techniques, including UCMCTrack, OC-SORT, C-BIoU and ByteTrack on the DanceTrack and KITTI-car datasets, increasing HOTA by 2.64 and 2.11, respectively, while offering competitive performance on the MOT17, MOT20 and KITTI-pedestrian datasets. Using publicly available detections, IMM-JHSE outperforms almost all other 2D MOT methods and is outperformed only by 3D MOT methods -- some of which are offline -- on the KITTI-car dataset. Compared to tracking-by-attention methods, IMM-JHSE shows remarkably similar performance on the DanceTrack dataset and outperforms them on the MOT17 dataset. The code is publicly available: \url{https://github.com/Paulkie99/imm-jhse}.
- Abstract(参考訳): 新しいオンラインMOTアルゴリズムであるIMMジョイントホモグラフィー状態推定(IMM-JHSE)を提案する。
IMM-JHSEは、唯一の追加の3D情報として初期ホモグラフィー推定を用いるが、他の3D MOT法は通常の3D計測を使用する。
IMM-JHSEは、ホモグラフィ行列とそのダイナミクスをトラック状態ベクトルの一部として共同でモデル化することにより、カメラモーション補償技術が予測されたトラック位置状態に与える影響を排除し、それ以前のアプローチで一般的であった。
これを拡張して、静的および動的カメラモーションモデルをIMMフィルタで組み合わせる。
単純なバウンディングボックス動作モデルを用いて、境界ボックスの位置を予測し、画像平面情報を組み込む。
カメラ動作にIMMを適用することに加え、非標準のIMMアプローチでは、バウンディングボックスベースのBIoUスコアと、IMM風のマハラノビス距離を混合してアソシエーションのみを行ない、IMM-JHSEを地平面から遠ざけやすくする。
最後に、IMM-JHSEは動的プロセスと計測ノイズ推定技術を利用する。
IMM-JHSEは、DanceTrackのUCMCTrack、OC-SORT、C-BIoU、ByteTrackなどの関連技術を改善し、それぞれHOTAを2.64と2.11に増加させ、MOT17、MOT20、KITTI-ペデストリアンデータセットで競合性能を提供する。
IMM-JHSEは、公開されている検出を使用して、他のほとんどの2D MOTメソッドより優れており、KITTI-carデータセット上の3D MOTメソッド(一部はオフライン)でのみパフォーマンスが向上している。
IMM-JHSEは、トラッキング・バイ・アテンション法と比較して、DanceTrackデータセットで驚くほどよく似たパフォーマンスを示し、MOT17データセットでそれらを上回る。
コードは公開されている。 \url{https://github.com/Paulkie99/imm-jhse}。
関連論文リスト
- Uniformly Accelerated Motion Model for Inter Prediction [38.34487653360328]
自然ビデオでは、通常、変動速度を持つ複数の移動物体が存在し、その結果、コンパクトに表現することが難しい複雑な運動場が生じる。
Versatile Video Coding (VVC) では、既存のインター予測手法は連続するフレーム間の均一な速度運動を仮定する。
本研究では,動画フレーム間の移動物体の運動関連要素(速度,加速度)を利用する一様加速度運動モデル(UAMM)を提案する。
論文 参考訳(メタデータ) (2024-07-16T09:46:29Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - DeNoising-MOT: Towards Multiple Object Tracking with Severe Occlusions [52.63323657077447]
DNMOTは、複数のオブジェクト追跡のためのエンドツーエンドのトレーニング可能なDeNoising Transformerである。
具体的には、トレーニング中にノイズを伴って軌道を拡大し、エンコーダ・デコーダアーキテクチャのデノイング過程をモデルに学習させる。
我々はMOT17,MOT20,DanceTrackのデータセットについて広範な実験を行い,実験結果から,提案手法が従来の最先端手法よりも明確なマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-09T04:40:01Z) - STMT: A Spatial-Temporal Mesh Transformer for MoCap-Based Action Recognition [50.064502884594376]
本研究では、モーションキャプチャー(MoCap)シーケンスを用いた人間の行動認識の問題点について検討する。
メッシュシーケンスを直接モデル化する新しい時空間メッシュ変換器(STMT)を提案する。
提案手法は,スケルトンベースモデルやポイントクラウドベースモデルと比較して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-03-31T16:19:27Z) - Data-Driven Stochastic Motion Evaluation and Optimization with Image by
Spatially-Aligned Temporal Encoding [8.104557130048407]
本稿では,長動きに対する確率的動き予測法を提案し,その動きが与えられた画像で観測された初期状態からタスクを達成できるように予測する。
本手法は空間的に時間的エンコーディングによって画像特徴領域に画像と動きデータをシームレスに統合する。
提案手法の有効性は, 同様のSOTA法を用いた様々な実験で実証された。
論文 参考訳(メタデータ) (2023-02-10T04:06:00Z) - MotionHint: Self-Supervised Monocular Visual Odometry with Motion
Constraints [70.76761166614511]
モノクローナルビジュアル・オドメトリー(VO)のための新しい自己教師型アルゴリズムMotionHintを提案する。
我々のMotionHintアルゴリズムは、既存のオープンソースSSM-VOシステムに容易に適用できる。
論文 参考訳(メタデータ) (2021-09-14T15:35:08Z) - Feature-based Event Stereo Visual Odometry [2.7298989068857487]
本稿では,特徴検出と注意深い特徴管理の整合性に基づく,イベントカメラのための新しいステレオ・ビジュアル・オドメトリー法を提案する。
提案手法を,屋内飛行ドローンが取得したMVSECシーケンスとDSEC屋外運転シーケンスの2つの公開データセットで評価した。
論文 参考訳(メタデータ) (2021-07-10T22:36:49Z) - Image Modeling with Deep Convolutional Gaussian Mixture Models [79.0660895390689]
画像の記述と生成に適したGMM(Deep Hierarchical Gaussian Mixture Models)の新しい定式化を紹介します。
DCGMMは、畳み込みとプーリング操作によってリンクされた複数のGMM層の積み重ねたアーキテクチャによってこれを回避している。
dcgmmsでシャープな画像を生成するために,畳み込みやプーリングなどの非可逆操作をサンプリングする新しい勾配に基づく手法を提案する。
MNISTとFashionMNISTのデータセットに基づいて,クラスタリング,サンプリング,外乱検出において,フラットなGMMよりも優れていることを示すことで,DCGMMsモデルを検証した。
論文 参考訳(メタデータ) (2021-04-19T12:08:53Z) - Scalable nonparametric Bayesian learning for heterogeneous and dynamic
velocity fields [8.744017403796406]
速度場データの不均一および動的パターンを学習するモデルを開発した。
複雑な多車間相互作用のNGSIMデータセットに対して,本手法の有効性を示す。
論文 参考訳(メタデータ) (2021-02-15T17:45:46Z) - Online Multi-Object Tracking and Segmentation with GMPHD Filter and
Mask-based Affinity Fusion [79.87371506464454]
本稿では,インスタンス分割結果を入力として利用するMOTS法を提案する。
提案手法は,ガウス混合確率仮説密度 (GMPHD) フィルタ,階層型データアソシエーション (HDA) モデル,マスクベース親和性融合 (MAF) モデルに基づく。
2つの人気のあるMOTSデータセットの実験では、主要なモジュールがいくつかの改善点を示している。
論文 参考訳(メタデータ) (2020-08-31T21:06:22Z) - 0-MMS: Zero-Shot Multi-Motion Segmentation With A Monocular Event Camera [13.39518293550118]
本稿では,ボトムアップ機能トラッキングとトップダウン動作補償を組み合わせたモノラルなマルチモーションセグメンテーション手法を提案する。
時間間隔内でのイベントを用いて、本手法はシーンを分割とマージによって複数の動作に分割する。
このアプローチは、EV-IMO、EED、MODデータセットから、挑戦的な現実シナリオと合成シナリオの両方で評価された。
論文 参考訳(メタデータ) (2020-06-11T02:34:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。