論文の概要: The TIME Machine: On The Power of Motion for Efficient Perception
- arxiv url: http://arxiv.org/abs/2605.23045v1
- Date: Thu, 21 May 2026 21:22:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.104572
- Title: The TIME Machine: On The Power of Motion for Efficient Perception
- Title(参考訳): TIMEマシン:効率的な知覚のための動きの力について
- Authors: Mantas Skackauskas, Xinyue Hao, Laura Sevilla-Lara,
- Abstract要約: 本稿では,映像表現の中心となるモダリティとして動きを利用する新しい手法を提案する。
特に、ビデオ中の運動をポイントトラックの形で考えると、私たちはマスク付きオートエンコーダを使ってトラックの一部を隠蔽し、オートエンコーダを訓練し、行方不明のトラックを再構築する。
ビデオの表現にモーションを使うことは、ビデオ技術の中核的な限界の両方に実際に対処できることが示される。
- 参考スコア(独自算出の注目度): 10.074545631396383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video representation learning has seen tremendous progress in recent years. This has been driven by many factors, including the scale of training and the success of visual models trained contrastively with language. While these factors have pushed the boundaries of what video models can do, they also introduce their own set of limitations: first, scaling video models can reach prohibitive costs and second, learning from language restricts the range of concepts that can be learned to those in captions. As a result, video models still struggle with temporal understanding. In this paper we propose a novel approach that uses motion as the central modality for video representation. In particular, given the motion in a video in the form of point-tracks, we use a masked-autoencoder to mask some of the tracks and train the autoencoder to reconstruct the missing tracks. This allows us to learn a representation in a self-supervised manner. We show that using motion to represent videos actually addresses both of the core limitations of video technology. First, it allows us to massively reduce the scale of training data, as motion is inherently appearance-independent and hence needs fewer examples to generalize well. Second, motion allows us to bypass the language-dependent training paradigm, learning better fine-grained concepts. The result is an embedding that we call TIME (Temporally Informed Motion Embedding), a representation trained exclusively on synthetic motion data. We test this embedding on a wide set of tasks in a zero-shot manner. We observe that without bells and whistles, performance is on par with state-of-the-art models using up to 4 orders of magnitude less training data. This is a stepping stone towards a new paradigm of video models that are both more temporally aware as well as more scalable.
- Abstract(参考訳): 近年,映像表現学習は飛躍的な進歩を遂げている。
これは、訓練の規模や、言語と対照的に訓練された視覚モデルの成功など、多くの要因によって推進されている。
第一に、ビデオモデルをスケールすることは禁断のコストに到達し、第二に、言語から学ぶことは、キャプションで学べる概念の範囲を制限する。
その結果、ビデオモデルは時間的理解に苦戦している。
本稿では,映像表現の中心となるモダリティとして動きを利用する新しい手法を提案する。
特に、ビデオ中の運動をポイントトラックの形で考えると、私たちはマスク付きオートエンコーダを使ってトラックの一部を隠蔽し、オートエンコーダを訓練し、行方不明のトラックを再構築する。
これにより、自己管理的な方法で表現を学ぶことができます。
ビデオの表現にモーションを使うことは、ビデオ技術の中核的な限界の両方に実際に対処できることが示される。
まず、動きが本質的に外見に依存しないため、うまく一般化するサンプルが少ないため、トレーニングデータの規模を大幅に削減できます。
第二に、モーションは言語に依存したトレーニングパラダイムを回避し、よりきめ細かい概念を学習します。
その結果、私たちがTIME(Temporally Informed Motion Embedding)と呼ぶ埋め込みが生まれました。
我々は、この埋め込みをゼロショット方式で広範囲のタスクに対してテストする。
ベルとホイッスルなしでは、最大4桁のトレーニングデータを使用して、最先端のモデルとパフォーマンスが同等であることを観察する。
これは、ビデオモデルの新たなパラダイムへの一歩であり、より時間的に認識され、よりスケーラブルである。
関連論文リスト
- TrackMAE: Video Representation Learning via Track Mask and Predict [53.79942817343784]
Masked Video Modeling (MVM)は、シンプルでスケーラブルな自己教師付き事前トレーニングパラダイムとして登場した。
動作情報を復元信号として明示的に利用するシンプルなマスク付きビデオモデリングパラダイムであるTrackMAEを提案する。
我々は、さまざまな下流設定の6つのデータセットを評価し、TrackMAEが最先端のビデオ自己教師型学習ベースラインを一貫して上回っていることを発見した。
論文 参考訳(メタデータ) (2026-03-28T13:35:23Z) - SMILE: Infusing Spatial and Motion Semantics in Masked Video Learning [50.98341607245458]
Masked Video Modelingはビデオ自己教師型学習(SSL)に有効なパラダイムである
本稿では,空間的意味論と動き的意味論を融合させることにより,SMILEと呼ばれるビデオ表現学習のための新しいSSL手法を提案する。
我々は、自然な映像データを必要とせず、強力な映像表現を学習できる、新しい自己教師型ビデオ学習パラダイムを確立した。
論文 参考訳(メタデータ) (2025-04-01T08:20:55Z) - Any-point Trajectory Modeling for Policy Learning [64.23861308947852]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Masked Motion Encoding for Self-Supervised Video Representation Learning [84.24773072241945]
Masked Motion MMEは、外観情報と動作情報の両方を再構成し、時間的手がかりを探索する新しい事前学習パラダイムである。
物体の位置変化や形状変化を追跡することで、人間が行動を認識することができるという事実を動機として、マスク領域におけるこれらの2種類の変化を表す運動軌跡を再構築することを提案する。
我々のMMEパラダイムで事前訓練されたモデルでは、長期的かつきめ細かな動きの詳細を予測できる。
論文 参考訳(メタデータ) (2022-10-12T11:19:55Z) - Motion-Augmented Self-Training for Video Recognition at Smaller Scale [32.73585552425734]
我々はMotionFitと呼ばれる最初のモーション強化自己訓練体制を提案します。
我々は,大規模な非ラベル映像コレクションに対して擬似ラベルを生成し,これらの擬似ラベルを出現モデルで予測し,知識の伝達を可能にした。
アクション認識やクリップ検索などのビデオ下流タスクに適した,強いモーション提示表現モデルを得る。
論文 参考訳(メタデータ) (2021-05-04T17:43:19Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。