論文の概要: Learning to Track Any Points from Human Motion
- arxiv url: http://arxiv.org/abs/2507.06233v1
- Date: Tue, 08 Jul 2025 17:59:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.447501
- Title: Learning to Track Any Points from Human Motion
- Title(参考訳): 人間の動きからあらゆる点を追跡することを学ぶ
- Authors: Inès Hyeonsu Kim, Seokju Cho, Jahyeok Koo, Junghyun Park, Jiahui Huang, Joon-Young Lee, Seungryong Kim,
- Abstract要約: 点追跡のための擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。
AnthroTAPでトレーニングされた点追跡モデルは、TAP-Vidベンチマークで注釈付き最先端性能を達成する。
- 参考スコア(独自算出の注目度): 55.831218129679144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human motion, with its inherent complexities, such as non-rigid deformations, articulated movements, clothing distortions, and frequent occlusions caused by limbs or other individuals, provides a rich and challenging source of supervision that is crucial for training robust and generalizable point trackers. Despite the suitability of human motion, acquiring extensive training data for point tracking remains difficult due to laborious manual annotation. Our proposed pipeline, AnthroTAP, addresses this by proposing an automated pipeline to generate pseudo-labeled training data, leveraging the Skinned Multi-Person Linear (SMPL) model. We first fit the SMPL model to detected humans in video frames, project the resulting 3D mesh vertices onto 2D image planes to generate pseudo-trajectories, handle occlusions using ray-casting, and filter out unreliable tracks based on optical flow consistency. A point tracking model trained on AnthroTAP annotated dataset achieves state-of-the-art performance on the TAP-Vid benchmark, surpassing other models trained on real videos while using 10,000 times less data and only 1 day in 4 GPUs, compared to 256 GPUs used in recent state-of-the-art.
- Abstract(参考訳): 人間の動きは、非剛性変形、調音運動、衣服の歪み、手足や他の個人によって引き起こされる頻繁な閉塞など、その固有の複雑さと共に、堅牢で一般化可能なポイントトラッカーの訓練に不可欠な、豊かで挑戦的な監督源を提供する。
人間の動作が適しているにもかかわらず、手作業による手動のアノテーションのため、ポイントトラッキングのための広範なトレーニングデータを取得することは依然として困難である。
提案するパイプラインである AnthroTAP では,Skinned Multi-Person Linear (SMPL) モデルを利用して,擬似ラベル付きトレーニングデータを生成する自動パイプラインを提案する。
まず,映像フレーム内の人間の検出にSMPLモデルを適合させ,得られた3次元メッシュ頂点を2次元画像平面に投影し,擬似軌跡を生成し,レイキャストを用いてオクルージョンを処理し,光学的流れの整合性に基づいて信頼できないトラックをフィルタリングする。
AnthroTAPアノテートデータセットでトレーニングされたポイントトラッキングモデルは、TAP-Vidベンチマークで最先端のパフォーマンスを達成し、実際のビデオでトレーニングされた他のモデルを上回っている。
関連論文リスト
- UAVTwin: Neural Digital Twins for UAVs using Gaussian Splatting [57.63613048492219]
UAVTwinは,無人航空機(UAV)に埋め込まれた下流モデルの訓練を行うための,実環境からデジタル双生児を作成する方法である。
これは、背景を再構築するための3Dガウススティング(3DGS)と、多様な外観と動作を複数のポーズで表示する制御可能な合成人間モデルを統合することで実現される。
論文 参考訳(メタデータ) (2025-04-02T22:17:30Z) - 3D Multi-Object Tracking with Semi-Supervised GRU-Kalman Filter [6.13623925528906]
3D Multi-Object Tracking (MOT)は、自律運転やロボットセンシングのようなインテリジェントなシステムに不可欠である。
本稿では,学習可能なカルマンフィルタを移動モジュールに導入するGRUベースのMOT法を提案する。
このアプローチは、データ駆動学習を通じてオブジェクトの動き特性を学習することができ、手動モデル設計やモデルエラーを回避することができる。
論文 参考訳(メタデータ) (2024-11-13T08:34:07Z) - TAPVid-3D: A Benchmark for Tracking Any Point in 3D [63.060421798990845]
我々は,3Dにおける任意の点の追跡作業を評価するための新しいベンチマークTAPVid-3Dを導入する。
このベンチマークは、モノクロビデオから正確な3Dの動きと表面の変形を理解する能力を改善するためのガイドポストとして機能する。
論文 参考訳(メタデータ) (2024-07-08T13:28:47Z) - 3D Face Tracking from 2D Video through Iterative Dense UV to Image Flow [15.479024531161476]
本稿では,頂点ごとの高密度アライメントのための2次元アライメントネットワークを革新的に導入する新しいフェイストラッカーであるFlowFaceを提案する。
以前の作業とは異なり、FlowFaceは、弱い監視や合成データではなく、高品質な3Dスキャンアノテーションでトレーニングされている。
本手法は,カスタムベンチマークと公開ベンチマークの両方において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-15T14:20:07Z) - NICP: Neural ICP for 3D Human Registration at Scale [35.631505786332454]
本研究では,3次元人間登録のためのニューラルネットワーク拡張型登録手法NSRを提案する。
NSRは、数千の形状と10以上の異なるデータソースを一般化し、スケールする。
我々の重要な貢献は、ICPスタイルの自己教師型タスクであるNICPである。
論文 参考訳(メタデータ) (2023-12-21T16:54:09Z) - 3DMOTFormer: Graph Transformer for Online 3D Multi-Object Tracking [15.330384668966806]
最先端の3Dマルチオブジェクト追跡(MOT)アプローチは通常、Kalman Filterのような非学習モデルベースのアルゴリズムに依存している。
本稿では3DMOTFormerを提案する。この3D MOTフレームワークはトランスフォーマーアーキテクチャをベースに構築されている。
提案手法は, nuScenesバリデーションとテストスプリットでそれぞれ71.2%, AMOTA68.2%を達成している。
論文 参考訳(メタデータ) (2023-08-12T19:19:58Z) - CROMOSim: A Deep Learning-based Cross-modality Inertial Measurement
Simulator [7.50015216403068]
慣性測定装置 (IMU) のデータは, 人体移動の監視と評価に利用されてきた。
データ不足を緩和するため,クロスモーダルセンサシミュレータであるCROMOSimを設計した。
モーションキャプチャシステムや単眼RGBカメラから高忠実度仮想IMUセンサーデータをシミュレートする。
論文 参考訳(メタデータ) (2022-02-21T22:30:43Z) - Monocular Quasi-Dense 3D Object Tracking [99.51683944057191]
周囲の物体の将来の位置を予測し、自律運転などの多くのアプリケーションで観測者の行動を計画するためには、信頼性と正確な3D追跡フレームワークが不可欠である。
移動プラットフォーム上で撮影された2次元画像のシーケンスから,移動物体を時間とともに効果的に関連付け,その全3次元バウンディングボックス情報を推定するフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-12T15:30:02Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。