論文の概要: It's a Matter of Time: Three Lessons on Long-Term Motion for Perception
- arxiv url: http://arxiv.org/abs/2602.14705v1
- Date: Mon, 16 Feb 2026 12:51:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 16:22:50.408356
- Title: It's a Matter of Time: Three Lessons on Long-Term Motion for Perception
- Title(参考訳): 時間の問題:知覚のための長期動作に関する3つの教訓
- Authors: Willem Davison, Xinyue Hao, Laura Sevilla-Lara,
- Abstract要約: 時間情報は長い間、知覚に欠かせないものと考えられてきた。
長期的な動き表現には、行動を理解するための情報だけでなく、物体、材料、空間情報も含まれており、多くの場合、画像よりも優れている。
モーション情報の次元性は非常に低いため、モーション表現はGFLOPと通常のビデオ表現よりも精度のトレードオフが優れている。
- 参考スコア(独自算出の注目度): 10.074545631396383
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Temporal information has long been considered to be essential for perception. While there is extensive research on the role of image information for perceptual tasks, the role of the temporal dimension remains less well understood: What can we learn about the world from long-term motion information? What properties does long-term motion information have for visual learning? We leverage recent success in point-track estimation, which offers an excellent opportunity to learn temporal representations and experiment on a variety of perceptual tasks. We draw 3 clear lessons: 1) Long-term motion representations contain information to understand actions, but also objects, materials, and spatial information, often even better than images. 2) Long-term motion representations generalize far better than image representations in low-data settings and in zero-shot tasks. 3) The very low dimensionality of motion information makes motion representations a better trade-off between GFLOPs and accuracy than standard video representations, and used together they achieve higher performance than video representations alone. We hope these insights will pave the way for the design of future models that leverage the power of long-term motion information for perception.
- Abstract(参考訳): 時間情報は長い間、知覚に欠かせないものと考えられてきた。
知覚的タスクにおける画像情報の役割に関する広範な研究があるが、時間的次元の役割はいまだよく理解されていない: 長期動作情報から世界について何が学べるか?
視覚学習における長期動作情報はどのような特性を持つか?
近年のポイントトラック推定の成功を利用して、時間的表現を学習し、様々な知覚的タスクを実験する絶好の機会を提供する。
私たちは3つの明確な教訓を導きます。
1) 長期動作表現には行動を理解する情報だけでなく, 物体, 材料, 空間情報も含まれており, 多くの場合, 画像よりも優れている。
2) 長期動作表現は低データ設定やゼロショットタスクにおいて画像表現よりもはるかに優れている。
3) 動き情報の次元性は非常に低いため,GFLOPと精度のトレードオフは標準映像よりも良好であり,映像のみよりも高い性能が得られる。
これらの知見が、長期的な動き情報のパワーを知覚に活用する将来のモデル設計の道を開くことを願っている。
関連論文リスト
- Motion-Grounded Video Reasoning: Understanding and Perceiving Motion at Pixel Level [63.18855743293851]
Motion-Grounded Video Reasoningは、入力された質問に応じて視覚的回答(ビデオセグメンテーションマスク)を必要とする新しい動作理解タスクである。
このタスクは、質問による暗黙の推論を可能にすることで、明示的なアクション/モーショングラウンドの既存の基盤作業を、より一般的なフォーマットに拡張する。
我々はMotion-Grounded Video Reasoning Assistant(MORA)という新しいベースラインモデルを導入する。
論文 参考訳(メタデータ) (2024-11-15T03:45:09Z) - Video-based Person Re-identification with Long Short-Term Representation
Learning [101.62570747820541]
ビデオベースの人物再識別(V-ReID)は、オーバーラップしないカメラで撮影した生のビデオから特定の人物を回収することを目的としている。
本稿では,V-ReIDのためのLong Short-Term Representation Learning(LSTRL)という新しいディープラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-07T16:22:47Z) - MoLo: Motion-augmented Long-short Contrastive Learning for Few-shot
Action Recognition [50.345327516891615]
我々は、長短コントラスト目的と動き自動デコーダを含む2つの重要なコンポーネントを含む動き強化長短コントラスト学習法(MoLo)を開発した。
MoLoは、広範囲の時間的コンテキストとモーションキューを同時に学習して、包括的な数ショットマッチングを実現する。
論文 参考訳(メタデータ) (2023-04-03T13:09:39Z) - Mutual Information-Based Temporal Difference Learning for Human Pose
Estimation in Video [16.32910684198013]
本稿では,動的コンテキストをモデル化するために,フレーム間の時間差を利用した新しいヒューマンポーズ推定フレームワークを提案する。
具体的には、多段階差分を条件とした多段階絡み合い学習シーケンスを設計し、情報的動作表現シーケンスを導出する。
以下は、HiEveベンチマークで、複合イベントチャレンジにおけるクラウドポーズ推定において、第1位にランク付けします。
論文 参考訳(メタデータ) (2023-03-15T09:29:03Z) - Exploring Temporal Granularity in Self-Supervised Video Representation
Learning [99.02421058335533]
本研究は,ビデオ表現学習における時間的グラニュラリティの探索を目的とした,TeGという自己教師型学習フレームワークを提案する。
TeGの柔軟性は、8つのビデオベンチマークで最先端の結果をもたらし、ほとんどの場合、教師付き事前トレーニングよりも優れています。
論文 参考訳(メタデータ) (2021-12-08T18:58:42Z) - Video 3D Sampling for Self-supervised Representation Learning [13.135859819622855]
本稿では,ビデオ3Dサンプリング(V3S)と呼ばれる,映像表現学習の自己指導手法を提案する。
本実装では,3次元のサンプリングを組み合わせ,空間および時間におけるスケールおよび投影変換を提案する。
実験結果から,動作認識,映像検索,動作類似性ラベル付けに応用した場合,本手法は最先端の手法を改良し,良好なマージンが得られた。
論文 参考訳(メタデータ) (2021-07-08T03:22:06Z) - Towards Long-Form Video Understanding [7.962725903399016]
本稿では,大規模データセット上での長文ビデオのモデリングと評価プロトコルの開発を行うフレームワークを提案する。
オブジェクト中心のトランスフォーマーに基づく新しいビデオ認識アーキテクチャは、7つの多様なタスクで大幅に向上する。
論文 参考訳(メタデータ) (2021-06-21T17:59:52Z) - RSPNet: Relative Speed Perception for Unsupervised Video Representation
Learning [100.76672109782815]
本研究では,未ラベル映像のみから動作特徴と外観特徴の両方を学習するための教師なし映像表現学習について検討する。
動作と外観の両方をうまくモデル化するために、適切な自己指導タスクを構築することは困難である。
再生速度を知覚し、2つのビデオクリップ間の相対速度をラベルとして利用するための新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-27T16:42:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。