論文の概要: MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning
- arxiv url: http://arxiv.org/abs/2506.08694v1
- Date: Tue, 10 Jun 2025 11:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.363606
- Title: MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning
- Title(参考訳): MoSiC:Dense Self-Supervised Learningのための最適移動運動軌跡
- Authors: Mohammadreza Salehi, Shashanka Venkataramanan, Ioana Simion, Efstratios Gavves, Cees G. M. Snoek, Yuki M Asano,
- Abstract要約: 密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
- 参考スコア(独自算出の注目度): 66.53533434848369
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dense self-supervised learning has shown great promise for learning pixel- and patch-level representations, but extending it to videos remains challenging due to the complexity of motion dynamics. Existing approaches struggle as they rely on static augmentations that fail under object deformations, occlusions, and camera movement, leading to inconsistent feature learning over time. We propose a motion-guided self-supervised learning framework that clusters dense point tracks to learn spatiotemporally consistent representations. By leveraging an off-the-shelf point tracker, we extract long-range motion trajectories and optimize feature clustering through a momentum-encoder-based optimal transport mechanism. To ensure temporal coherence, we propagate cluster assignments along tracked points, enforcing feature consistency across views despite viewpoint changes. Integrating motion as an implicit supervisory signal, our method learns representations that generalize across frames, improving robustness in dynamic scenes and challenging occlusion scenarios. By initializing from strong image-pretrained models and leveraging video data for training, we improve state-of-the-art by 1% to 6% on six image and video datasets and four evaluation benchmarks. The implementation is publicly available at our GitHub repository: https://github.com/SMSD75/MoSiC/tree/main
- Abstract(参考訳): 高度な自己教師付き学習は、ピクセルレベルの表現とパッチレベルの表現を学習する上で非常に有望であるが、モーションダイナミクスの複雑さのため、ビデオに拡張することは依然として困難である。
既存のアプローチは、オブジェクトの変形、オクルージョン、カメラの動きで失敗する静的な拡張に依存しているため、時間とともに不整合な特徴学習につながる。
本研究では、時空間的に一貫した表現を学習するために、高密度な点トラックをクラスタリングする動き誘導型自己教師学習フレームワークを提案する。
オフ・ザ・シェルフ・ポイント・トラッカーを利用して長距離移動軌道を抽出し,モーメントエンコーダを用いた最適輸送機構による特徴クラスタリングを最適化する。
時間的コヒーレンスを確保するため、観測点に沿ってクラスタ割り当てを伝搬し、視点の変化にもかかわらず、ビュー間の特徴一貫性を強制する。
動作を暗黙的な監視信号として統合することで,フレーム間の一般化,動的シーンの堅牢性の向上,そして難解な閉塞シナリオの克服を学習する。
強い画像予測モデルから初期化し、トレーニングにビデオデータを活用することで、6つの画像およびビデオデータセットと4つの評価ベンチマークで最先端を1%から6%改善する。
実装はGitHubリポジトリで公開されている。 https://github.com/SMSD75/MoSiC/tree/main
関連論文リスト
- Efficient Motion Prompt Learning for Robust Visual Tracking [58.59714916705317]
本稿では,軽量かつプラグアンドプレイなモーションプロンプトトラッキング手法を提案する。
既存の視覚ベースのトラッカーと簡単に統合して、共同トラッキングフレームワークを構築することができる。
7つのトラッキングベンチマークの実験により、提案したモーションモジュールは、視覚ベースのトラッカーのロバスト性を大幅に改善することが示された。
論文 参考訳(メタデータ) (2025-05-22T07:22:58Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Self-Supervised Pillar Motion Learning for Autonomous Driving [10.921208239968827]
本研究では,点群からの自由監視信号と対カメラ画像を利用した学習フレームワークを提案する。
本モデルでは,確率的運動マスキングを付加した点雲に基づく構造整合性と,所望の自己超越を実現するためのクロスセンサ運動正規化を含む。
論文 参考訳(メタデータ) (2021-04-18T02:32:08Z) - Learning to Segment Rigid Motions from Two Frames [72.14906744113125]
本研究では, 運動場から独立物体の動きを復元する幾何学的解析により, モジュラーネットワークを提案する。
2つの連続フレームを入力とし、背景のセグメンテーションマスクと複数の剛体移動オブジェクトを予測し、3次元の剛体変換によってパラメータ化する。
本手法はkittiおよびsintelにおける剛体運動セグメンテーションの最先端性能を実現する。
論文 参考訳(メタデータ) (2021-01-11T04:20:30Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。