論文の概要: M2P: Improving Visual Foundation Models with Mask-to-Point Weakly-Supervised Learning for Dense Point Tracking
- arxiv url: http://arxiv.org/abs/2603.17813v1
- Date: Wed, 18 Mar 2026 15:06:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.772781
- Title: M2P: Improving Visual Foundation Models with Mask-to-Point Weakly-Supervised Learning for Dense Point Tracking
- Title(参考訳): M2P:Dense Point Trackingのためのマスク・ツー・ポイント改良学習によるビジュアルファウンデーションモデルの改善
- Authors: Qiangqiang Wu, Tianyu Yang, Bo Fang, Jia Wan, Matias Di Martino, Guillermo Sapiro, Antoni B. Chan,
- Abstract要約: ビデオ理解の基本的なツールとして、Tracking Any Point (TAP)が登場した。
現在のアプローチでは、オフラインの微調整やテストタイムの最適化を通じて、DINOv2のようなビジョンファウンデーションモデル(VFM)を適用している。
本稿では、リッチビデオオブジェクトセグメンテーション(VOS)マスクアノテーションを利用して、高密度点追跡のためのVFMを改善するMask-to-Point(M2P)学習を提案する。
- 参考スコア(独自算出の注目度): 57.6064636075148
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Tracking Any Point (TAP) has emerged as a fundamental tool for video understanding. Current approaches adapt Vision Foundation Models (VFMs) like DINOv2 via offline finetuning or test-time optimization. However, these VFMs rely on static image pre-training, which is inherently sub-optimal for capturing dense temporal correspondence in videos. To address this, we propose Mask-to-Point (M2P) learning, which leverages rich video object segmentation (VOS) mask annotations to improve VFMs for dense point tracking. Our M2P introduces three new mask-based constraints for weakly-supervised representation learning. First, we propose a local structure consistency loss, which leverages Procrustes analysis to model the cohesive motion of points lying within a local structure, achieving more reliable point-to-point matching learning. Second, we propose a mask label consistency (MLC) loss, which enforces that sampled foreground points strictly match foreground regions across frames. The proposed MLC loss can be regarded as a regularization, which stabilizes training and prevents convergence to trivial solutions. Finally, mask boundary constrain is applied to explicitly supervise boundary points. We show that our weaklysupervised M2P models significantly outperform baseline VFMs with efficient training by using only 3.6K VOS training videos. Notably, M2P achieves 12.8% and 14.6% performance gains over DINOv2-B/14 and DINOv3-B/16 on the TAP-Vid-DAVIS benchmark, respectively. Moreover, the proposed M2P models are used as pre-trained backbones for both test-time optimized and offline fine-tuned TAP tasks, demonstrating its potential to serve as general pre-trained models for point tracking. Code will be made publicly available upon acceptance.
- Abstract(参考訳): ビデオ理解の基本的なツールとして、Tracking Any Point (TAP)が登場した。
現在のアプローチでは、オフラインの微調整やテストタイムの最適化を通じて、DINOv2のようなビジョンファウンデーションモデル(VFM)を適用している。
しかし、これらのVFMは静止画像事前学習に依存しており、ビデオ中の高密度時間対応を捉えるのに本質的に最適である。
そこで本研究では,リッチビデオオブジェクトセグメンテーション(VOS)マスクアノテーションを活用して,高密度点追跡のためのVFMを改善するMask-to-Point(M2P)学習を提案する。
我々のM2Pは、弱教師付き表現学習のための3つの新しいマスクベースの制約を導入している。
まず,局所構造内の点の凝集運動をモデル化するためにProcrustes解析を利用する局所構造整合性損失を提案し,より信頼性の高い点対点マッチング学習を実現する。
第2に, 前景点をフレーム間の前景領域と厳密に一致させるマスクラベル整合性(MLC)損失を提案する。
提案したLC損失は、トレーニングを安定させ、自明な解への収束を防ぐ正則化と見なすことができる。
最後に、マスク境界制約を適用して境界点を明示的に監督する。
弱教師付きM2Pモデルは,3.6K VOSトレーニングビデオのみを用いて,効率的なトレーニングを行い,ベースラインVFMよりも有意に優れていた。
特にM2Pは、TAP-Vid-DAVISベンチマークでそれぞれDINOv2-B/14とDINOv3-B/16よりも12.8%、14.6%の性能向上を達成した。
さらに、提案したM2Pモデルは、テスト時間最適化およびオフライン微調整されたTAPタスクのトレーニング済みバックボーンとして使用され、ポイントトラッキングのための一般的なトレーニング済みモデルとして機能する可能性を示している。
コードは受理時に公開される。
関連論文リスト
- Masked Clustering Prediction for Unsupervised Point Cloud Pre-training [61.11226004056774]
MaskCluは、3Dポイントクラウド上でのViTの教師なし事前トレーニング手法である。
マスク付きポイントモデリングとクラスタリングベースの学習を統合している。
論文 参考訳(メタデータ) (2025-08-12T12:58:44Z) - The Missing Point in Vision Transformers for Universal Image Segmentation [17.571552686063335]
マスク生成を分類から分離する2段階セグメンテーションフレームワークであるViT-Pを紹介する。
ViT-Pは、事前訓練のないアダプタとして機能し、様々な事前訓練された視覚変換器の統合を可能にする。
COCO、ADE20K、Cityscapesの各データセットにわたる実験は、ViT-Pの有効性を検証する。
論文 参考訳(メタデータ) (2025-05-26T10:29:13Z) - Triple Point Masking [49.39218611030084]
既存の3Dマスク学習手法は、限られたデータの下でパフォーマンスボトルネックに遭遇する。
我々は、マスク付きオートエンコーダの事前学習のためのスケーラブルなフレームワークとして、TPMと呼ばれるトリプルポイントマスキング方式を導入する。
大規模な実験により,提案したTPMを組み込んだ4つのベースラインが,下流タスクの総合的な性能向上を実現することが示された。
論文 参考訳(メタデータ) (2024-09-26T05:33:30Z) - Bringing Masked Autoencoders Explicit Contrastive Properties for Point Cloud Self-Supervised Learning [116.75939193785143]
画像領域における視覚変換器(ViT)のコントラスト学習(CL)は、従来の畳み込みバックボーンのCLに匹敵する性能を達成した。
ViTで事前訓練した3Dポイントクラウドでは、マスク付きオートエンコーダ(MAE)モデリングが主流である。
論文 参考訳(メタデータ) (2024-07-08T12:28:56Z) - CPCM: Contextual Point Cloud Modeling for Weakly-supervised Point Cloud
Semantic Segmentation [60.0893353960514]
疎アノテーションを用いた弱教師付きポイントクラウドセマンティックセマンティックセグメンテーションの課題について検討する。
本研究では,地域マスキング(RegionMask)戦略とコンテキストマスキングトレーニング(CMT)手法の2つの部分からなるコンテキストポイントクラウドモデリング(CPCM)手法を提案する。
論文 参考訳(メタデータ) (2023-07-19T04:41:18Z) - Point-M2AE: Multi-scale Masked Autoencoders for Hierarchical Point Cloud
Pre-training [56.81809311892475]
Masked Autoencoders (MAE) は、言語と2次元画像変換器の自己教師付き事前学習において大きな可能性を示している。
我々は3次元点雲の階層的自己教師型学習のための強力なマルチスケールMAE事前学習フレームワークであるPoint-M2AEを提案する。
論文 参考訳(メタデータ) (2022-05-28T11:22:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。