論文の概要: Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision
- arxiv url: http://arxiv.org/abs/2512.02339v1
- Date: Tue, 02 Dec 2025 02:17:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-03 21:04:45.68508
- Title: Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision
- Title(参考訳): Excelによる映像拡散モデル
- Authors: Chenshuang Zhang, Kang Zhang, Joon Son Chung, In So Kweon, Junmo Kim, Chengzhi Mao,
- Abstract要約: 視覚的に類似した物体を動きによって識別することは、コンピュータビジョンにおいて重要な課題である。
予め訓練したビデオ拡散モデルでは,タスク固有の訓練を伴わないトラッキングに適した動作表現が本質的に学習されていることがわかった。
提案手法は,最近確立されたベンチマークに対する自己教師型アプローチよりも6ポイント向上した。
- 参考スコア(独自算出の注目度): 80.2787127430925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Distinguishing visually similar objects by their motion remains a critical challenge in computer vision. Although supervised trackers show promise, contemporary self-supervised trackers struggle when visual cues become ambiguous, limiting their scalability and generalization without extensive labeled data. We find that pre-trained video diffusion models inherently learn motion representations suitable for tracking without task-specific training. This ability arises because their denoising process isolates motion in early, high-noise stages, distinct from later appearance refinement. Capitalizing on this discovery, our self-supervised tracker significantly improves performance in distinguishing visually similar objects, an underexplored failure point for existing methods. Our method achieves up to a 6-point improvement over recent self-supervised approaches on established benchmarks and our newly introduced tests focused on tracking visually similar items. Visualizations confirm that these diffusion-derived motion representations enable robust tracking of even identical objects across challenging viewpoint changes and deformations.
- Abstract(参考訳): 視覚的に類似した物体を動きによって識別することは、コンピュータビジョンにおいて重要な課題である。
教師付きトラッカーは将来性を示すが、現代のセルフ教師付きトラッカーは、視覚的手がかりがあいまいになったときに苦労し、広範囲なラベル付きデータなしでそのスケーラビリティと一般化を制限する。
予め訓練したビデオ拡散モデルでは,タスク固有の訓練を伴わないトラッキングに適した動作表現が本質的に学習されていることがわかった。
この能力は、デノナイジング過程が初期の高ノイズ段階の運動を分離し、後の外観の洗練とは異なることから生じる。
この発見に基づいて、我々の自己管理トラッカーは、既存のメソッドの未探索障害点である視覚的に類似したオブジェクトを識別する性能を著しく向上する。
提案手法は,確立されたベンチマークに対する最近の自己監督的アプローチに対して最大6ポイントの改善を実現し,視覚的に類似した項目の追跡に焦点をあてた新たな試験を行った。
可視化により、これらの拡散由来の運動表現は、挑戦的な視点の変化と変形をまたいで、同一の物体の頑健な追跡を可能にすることが確認される。
関連論文リスト
- TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Online Deep Clustering with Video Track Consistency [85.8868194550978]
ビデオオブジェクトトラックから視覚的特徴を学習するための教師なしクラスタリングに基づく手法を提案する。
教師なしのクラス非依存でノイズの多いトラックジェネレータを利用すれば、コストと正確なトラックアノテーションに依存するよりも精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-07T08:11:00Z) - Semi-TCL: Semi-Supervised Track Contrastive Representation Learning [40.31083437957288]
我々は、外観埋め込みを学習するために、新しいインスタンス・ツー・トラックマッチングの目的を設計する。
候補検出とトラッカーに永続化されたトラックの埋め込みを比較する。
我々は,この学習目標を,構成的損失の精神に倣って統一的な形で実施する。
論文 参考訳(メタデータ) (2021-07-06T05:23:30Z) - Crop-Transform-Paste: Self-Supervised Learning for Visual Tracking [137.26381337333552]
本研究では,十分なトレーニングデータを合成できるCrop-Transform-Paste演算を開発した。
オブジェクトの状態はすべての合成データで知られているので、既存のディープトラッカーは人間のアノテーションなしで日常的に訓練することができる。
論文 参考訳(メタデータ) (2021-06-21T07:40:34Z) - Self-supervised Video Object Segmentation [76.83567326586162]
本研究の目的は、半教師付きビデオオブジェクトセグメンテーション(高密度トラッキング)の解決を目的とした自己教師付き表現学習である。
i) 従来の自己教師型アプローチを改善すること、(ii) オンライン適応モジュールによる自己教師型アプローチの強化により、空間的時間的不連続性によるトラッカーのドリフトを緩和すること、(iv) DAVIS-2017とYouTubeの自己教師型アプローチで最先端の結果を示すこと、などが提案されている。
論文 参考訳(メタデータ) (2020-06-22T17:55:59Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。