論文の概要: Learning Pixel Trajectories with Multiscale Contrastive Random Walks
- arxiv url: http://arxiv.org/abs/2201.08379v1
- Date: Thu, 20 Jan 2022 18:58:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-21 14:19:30.545444
- Title: Learning Pixel Trajectories with Multiscale Contrastive Random Walks
- Title(参考訳): 多スケールコントラストランダムウォークによるピクセル軌跡の学習
- Authors: Zhangxing Bian, Allan Jabri, Alexei A. Efros, Andrew Owens
- Abstract要約: 様々なビデオモデリングタスクは、時空対応の確立という、同じ根本的な課題を共有している。
我々は、最近の対照的なランダムウォークの定式化を、より高密度でピクセルレベルの時空グラフに拡張することで、このギャップを埋めるための一歩を踏み出した。
これにより、光フロー、キーポイントトラッキング、ビデオオブジェクトセグメンテーションの自己教師付き学習のための統一的な技術が確立される。
- 参考スコア(独自算出の注目度): 42.180912739270724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A range of video modeling tasks, from optical flow to multiple object
tracking, share the same fundamental challenge: establishing space-time
correspondence. Yet, approaches that dominate each space differ. We take a step
towards bridging this gap by extending the recent contrastive random walk
formulation to much denser, pixel-level space-time graphs. The main
contribution is introducing hierarchy into the search problem by computing the
transition matrix between two frames in a coarse-to-fine manner, forming a
multiscale contrastive random walk when extended in time. This establishes a
unified technique for self-supervised learning of optical flow, keypoint
tracking, and video object segmentation. Experiments demonstrate that, for each
of these tasks, the unified model achieves performance competitive with strong
self-supervised approaches specific to that task. Project site:
https://jasonbian97.github.io/flowwalk
- Abstract(参考訳): 光フローから複数の物体追跡まで、様々なビデオモデリングタスクは、時空対応を確立するという同じ根本的な課題を共有している。
しかし、各空間を支配するアプローチは異なる。
我々は、このギャップを埋めるために、最近のコントラスト的ランダムウォークの定式化をより密集したピクセルレベルの時空グラフに拡張する。
主な貢献は、2つのフレーム間の遷移行列を粗い方法で計算し、時間的に拡張された場合、多スケールのコントラストランダムウォークを形成することである。
これにより、光フロー、キーポイントトラッキング、ビデオオブジェクトセグメンテーションの自己教師付き学習が確立される。
実験により、これらのタスク毎に、統一されたモデルは、そのタスク特有の強力な自己監督アプローチと競合するパフォーマンスを達成できることが示される。
プロジェクトサイト: https://jasonbian97.github.io/flowwalk
関連論文リスト
- One Diffusion to Generate Them All [54.82732533013014]
OneDiffusionは双方向画像合成と理解をサポートする汎用的で大規模な拡散モデルである。
テキスト、深さ、ポーズ、レイアウト、セマンティックマップなどの入力から条件生成を可能にする。
OneDiffusionは、シーケンシャルな画像入力を使用して、マルチビュー生成、カメラポーズ推定、即時パーソナライズを可能にする。
論文 参考訳(メタデータ) (2024-11-25T12:11:05Z) - Efficiently Scanning and Resampling Spatio-Temporal Tasks with Irregular Observations [13.491183255489396]
本稿では,2次元の潜伏状態と観測値の交叉アテンションを交互に交互に行うアルゴリズムを提案する。
提案アルゴリズムは,従来の手法と比較して,パラメータカウントが低く,トレーニングや推論が高速である場合に比較して精度が向上する。
論文 参考訳(メタデータ) (2024-10-11T10:11:31Z) - Deciphering Movement: Unified Trajectory Generation Model for Multi-Agent [53.637837706712794]
任意の軌道をマスク入力として処理する統一軌道生成モデルUniTrajを提案する。
具体的には,空間特徴抽出のためのトランスフォーマーエンコーダ内に埋め込まれたゴースト空間マスキング(GSM)モジュールを導入する。
バスケットボール-U,サッカー-U,サッカー-Uの3つの実用的なスポーツゲームデータセットをベンチマークして評価を行った。
論文 参考訳(メタデータ) (2024-05-27T22:15:23Z) - Spacewalk-18: A Benchmark for Multimodal and Long-form Procedural Video Understanding [4.9347081318119015]
本研究では,(1)ステップ認識と(2)動画内検索の2つのタスクを含むベンチマークであるSpacewalk-18を紹介する。
タンデムでは、この2つのタスクは、(1)ドメイン外の視覚情報、(2)高時間的コンテキストウィンドウ、(3)マルチモーダル(視覚と音声)ドメインを利用するモデルの能力の定量化を行う。
現状の手法は我々のベンチマークでは性能が良くないことがわかったが、異なるモダリティにまたがるより長い時間的文脈からの情報を組み込むことで改善が得られる。
論文 参考訳(メタデータ) (2023-11-30T18:19:23Z) - Modeling Continuous Motion for 3D Point Cloud Object Tracking [54.48716096286417]
本稿では,各トラックレットを連続ストリームとみなす新しいアプローチを提案する。
各タイムスタンプでは、現在のフレームだけがネットワークに送られ、メモリバンクに格納された複数フレームの履歴機能と相互作用する。
頑健な追跡のためのマルチフレーム機能の利用性を高めるために,コントラッシブシーケンス強化戦略を提案する。
論文 参考訳(メタデータ) (2023-03-14T02:58:27Z) - Efficient Video Segmentation Models with Per-frame Inference [117.97423110566963]
推論のオーバーヘッドを導入することなく、時間的一貫性を改善することに注力する。
本稿では,時間的一貫性の喪失やオンライン/オフラインの知識蒸留手法など,ビデオシーケンスから学ぶためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-02-24T23:51:36Z) - FILM: Frame Interpolation for Large Motion [20.04001872133824]
本稿では,2つの入力画像から複数の中間フレームを合成するフレームアルゴリズムを提案する。
提案手法は,Xiph大運動ベンチマークの最先端手法より優れている。
論文 参考訳(メタデータ) (2022-02-10T08:48:18Z) - Learning to Associate Every Segment for Video Panoptic Segmentation [123.03617367709303]
粗いセグメントレベルのマッチングと細かなピクセルレベルのマッチングを同時に学習する。
本研究では,Cityscapes-VPSおよびVIPERデータセット上で,フレーム単位の計算モデルにより,最先端の計算結果が得られることを示す。
論文 参考訳(メタデータ) (2021-06-17T13:06:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。