論文の概要: Refinements in Motion and Appearance for Online Multi-Object Tracking
- arxiv url: http://arxiv.org/abs/2003.07177v2
- Date: Tue, 17 Mar 2020 08:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-23 03:31:09.683257
- Title: Refinements in Motion and Appearance for Online Multi-Object Tracking
- Title(参考訳): オンラインマルチオブジェクトトラッキングにおける動作と外観の改善
- Authors: Piao Huang, Shoudong Han, Jun Zhao, Donghaisheng Liu, Hongwei Wang, En
Yu, and Alex ChiChung Kot
- Abstract要約: 統合された動きモデルは、カメラの動きのエンテンションを用いて設計されている。
スケール、ポーズ、可視性を考慮して、外観特徴を適応的に融合させ、特徴の不一致を克服する。
MIFベースのトラッカー(MIFT)は,MOT16と17の課題に対して60.1 MOTAで最先端の精度を実現する。
- 参考スコア(独自算出の注目度): 11.188492214012173
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern multi-object tracking (MOT) system usually involves separated modules,
such as motion model for location and appearance model for data association.
However, the compatible problems within both motion and appearance models are
always ignored. In this paper, a general architecture named as MIF is presented
by seamlessly blending the Motion integration, three-dimensional(3D) Integral
image and adaptive appearance feature Fusion. Since the uncertain pedestrian
and camera motions are usually handled separately, the integrated motion model
is designed using our defined intension of camera motion. Specifically, a 3D
integral image based spatial blocking method is presented to efficiently cut
useless connections between trajectories and candidates with spatial
constraints. Then the appearance model and visibility prediction are jointly
built. Considering scale, pose and visibility, the appearance features are
adaptively fused to overcome the feature misalignment problem. Our MIF based
tracker (MIFT) achieves the state-of-the-art accuracy with 60.1 MOTA on both
MOT16&17 challenges.
- Abstract(参考訳): 現代のマルチオブジェクト追跡(MOT)システムは通常、位置の移動モデルやデータアソシエーションの出現モデルのような分離されたモジュールを含む。
しかし、運動モデルと外観モデルの両方で互換性のある問題は無視される。
本稿では,運動積分,三次元(3d)積分画像,適応的外観特徴融合をシームレスに組み合わせ,mifと呼ばれる一般的なアーキテクチャを提案する。
通常、不確実な歩行者とカメラの動きは別々に処理されるため、統合された動きモデルは、カメラの動きの集中度を用いて設計される。
具体的には、3次元積分画像に基づく空間的ブロッキング法を提案し、空間的制約のある候補と軌跡間の無駄な接続を効率的に切断する。
そして、外観モデルと視認性予測を共同構築する。
スケール、ポーズ、可視性を考慮して、外観特徴を適応的に融合させ、特徴の誤認を克服する。
MIFベースのトラッカー(MIFT)は,MOT16と17の課題に対して60.1 MOTAで最先端の精度を実現する。
関連論文リスト
- IMM-MOT: A Novel 3D Multi-object Tracking Framework with Interacting Multiple Model Filter [10.669576499007139]
3D Multi-Object Tracking (MOT) は周囲の物体の軌跡を提供する。
トラッキング・バイ・ディテククションフレームワークに基づく既存の3D MOTメソッドは、通常、オブジェクトを追跡するために単一のモーションモデルを使用する。
IMM-MOTにおける干渉多重モデルフィルタを導入し、個々の物体の複雑な動きパターンを正確にマッチングする。
論文 参考訳(メタデータ) (2025-02-13T01:55:32Z) - DVPE: Divided View Position Embedding for Multi-View 3D Object Detection [7.791229698270439]
現在の研究は、受容場間のバランスと、多視点の特徴を集約する際の干渉を減らすことの課題に直面している。
本稿では,視覚的クロスアテンション機構を通じて特徴を世界規模でモデル化する分割ビュー手法を提案する。
我々のフレームワークはDVPEと呼ばれ、nuScenesテストセット上で最先端のパフォーマンス(57.2% mAPと64.5% NDS)を達成する。
論文 参考訳(メタデータ) (2024-07-24T02:44:41Z) - Motion-adaptive Separable Collaborative Filters for Blind Motion Deblurring [71.60457491155451]
様々な動きによって生じる画像のぼかしを除去することは、難しい問題である。
本研究では,動き適応型分離型協調フィルタと呼ばれる実世界のデブロアリングフィルタモデルを提案する。
本手法は,実世界の動きのぼかし除去に有効な解法を提供し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-04-19T19:44:24Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Delving into Motion-Aware Matching for Monocular 3D Object Tracking [81.68608983602581]
異なる時間軸に沿った物体の運動キューが3次元多物体追跡において重要であることが判明した。
3つの動き認識コンポーネントからなるフレームワークであるMoMA-M3Tを提案する。
我々はnuScenesとKITTIデータセットに関する広範な実験を行い、MoMA-M3Tが最先端の手法と競合する性能を発揮することを実証した。
論文 参考訳(メタデータ) (2023-08-22T17:53:58Z) - Homogeneous Multi-modal Feature Fusion and Interaction for 3D Object
Detection [16.198358858773258]
マルチモーダル3D物体検出は、自律運転において活発な研究課題となっている。
スパース3D点と高密度2Dピクセルの相互特徴融合を探索するのは簡単ではない。
最近のアプローチでは、画像特徴と2次元画像平面に投影される点雲の特徴を融合させるか、スパース点雲と高密度画像画素を組み合わせるかのどちらかである。
論文 参考訳(メタデータ) (2022-10-18T06:15:56Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z) - MAT: Motion-Aware Multi-Object Tracking [9.098793914779161]
本稿では,様々な物体の動作パターンに着目した動き認識トラッキング(MAT)を提案する。
MOT16とMOT17の挑戦的なベンチマークの実験は、我々のMATアプローチが大きなマージンで優れたパフォーマンスを達成することを実証している。
論文 参考訳(メタデータ) (2020-09-10T11:51:33Z) - Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data [77.34069717612493]
本稿では,100fpsの単眼手形状とポーズ推定の新たな手法を提案する。
これは、利用可能なハンドトレーニングデータのソースをすべて活用できるように設計された、新しい学習ベースのアーキテクチャによって実現されている。
3次元手関節検出モジュールと逆キネマティクスモジュールを備えており、3次元手関節位置だけでなく、1つのフィードフォワードパスでそれらを関節回転にマッピングする。
論文 参考訳(メタデータ) (2020-03-21T03:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。