論文の概要: Forecasting Motion in the Wild
- arxiv url: http://arxiv.org/abs/2604.01015v1
- Date: Wed, 01 Apr 2026 15:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:32.054324
- Title: Forecasting Motion in the Wild
- Title(参考訳): 野生における予測運動
- Authors: Neerja Thakkar, Shiry Ginosar, Jacob Walker, Jitendra Malik, Joao Carreira, Carl Doersch,
- Abstract要約: 本研究では,動きを外見から遠ざける構造的中間レベル表現である,行動の視覚的トークンとして高密度な点軌跡を提案する。
そこで我々は,300時間に及ぶ非拘束動物ビデオの撮影とカメラモーションの補正を行い,評価を行った。
実験により、軌道トークンの予測はカテゴリーに依存しない、データ効率の予測を達成し、最先端のベースラインを上回り、希少種や形態に一般化することが示された。
- 参考スコア(独自算出の注目度): 39.32101614367415
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual intelligence requires anticipating the future behavior of agents, yet vision systems lack a general representation for motion and behavior. We propose dense point trajectories as visual tokens for behavior, a structured mid-level representation that disentangles motion from appearance and generalizes across diverse non-rigid agents, such as animals in-the-wild. Building on this abstraction, we design a diffusion transformer that models unordered sets of trajectories and explicitly reasons about occlusion, enabling coherent forecasts of complex motion patterns. To evaluate at scale, we curate 300 hours of unconstrained animal video with robust shot detection and camera-motion compensation. Experiments show that forecasting trajectory tokens achieves category-agnostic, data-efficient prediction, outperforms state-of-the-art baselines, and generalizes to rare species and morphologies, providing a foundation for predictive visual intelligence in the wild.
- Abstract(参考訳): 視覚知能はエージェントの将来の行動を予測する必要があるが、視覚系は動作と行動の一般的な表現を欠いている。
本研究では,視覚的な行動の軌跡として高密度な点軌跡を提案する。これは外見から動きを遠ざけ,野生動物のような多様な非剛性エージェントをまたがって一般化する構造的中層表現である。
この抽象化に基づいて,無秩序な軌道の集合をモデル化する拡散変換器を設計し,閉塞の明確な理由を明らかにし,複雑な動きパターンのコヒーレントな予測を可能にする。
そこで我々は,300時間に及ぶ非拘束動物ビデオの撮影とカメラモーションの補正を行い,評価を行った。
実験により、軌道トークンの予測は、カテゴリーに依存しない、データ効率の予測を達成し、最先端のベースラインを上回り、希少な種や形態に一般化し、野生における予測的視覚知性の基礎となることが示されている。
関連論文リスト
- Integrating Specialized and Generic Agent Motion Prediction with Dynamic Occupancy Grid Maps [3.3894571022475066]
本研究では,将来の占有状態グリッド,車両グリッド,シーンフローグリッドを同時に予測する統合フレームワークを提案する。
我々のアプローチは、グリッド間の依存関係をキャプチャし、様々な将来予測を可能にする、カスタマイズされた相互依存損失関数に重点を置いている。
実世界の nuScenes と Woven Planet のデータセットによる評価は、動的車両や一般的な動的シーン要素の予測性能に優れていた。
論文 参考訳(メタデータ) (2026-02-08T12:13:06Z) - Generalist Forecasting with Frozen Video Models via Latent Diffusion [35.96406989431198]
本稿では,視覚モデルの知覚能力と,短時間の地平線上での予測性能との間に強い相関関係を示す。
本研究は,映像理解のためのブリッジング表現学習と生成モデリングの価値を強調した。
論文 参考訳(メタデータ) (2025-07-18T14:14:19Z) - A polar prediction model for learning to represent visual
transformations [10.857320773825357]
本稿では,自然映像の規則性を利用して正確な予測を行う自己教師付き表現学習フレームワークを提案する。
自然なビデオデータセットをトレーニングすると、従来の動き補償よりも優れた予測性能が得られる。
我々のフレームワークは、視覚システムが時間的予測を単純化する形で感覚入力をどのように表現するかを理解するための、原則化されたフレームワークを提供する。
論文 参考訳(メタデータ) (2023-03-06T19:00:59Z) - PREF: Predictability Regularized Neural Motion Fields [68.60019434498703]
ダイナミックなシーンで3Dの動きを知ることは、多くの視覚応用にとって不可欠である。
多視点設定における全ての点の運動を推定するために神経運動場を利用する。
予測可能な動きを正規化することを提案する。
論文 参考訳(メタデータ) (2022-09-21T22:32:37Z) - Investigating Pose Representations and Motion Contexts Modeling for 3D
Motion Prediction [63.62263239934777]
歴史的ポーズシーケンスから人間の動きを予測することは、機械が人間と知的な相互作用を成功させるために不可欠である。
本研究では,様々なポーズ表現に関する詳細な研究を行い,その動作予測課題に対する効果に着目した。
AHMR(Attentive Hierarchical Motion Recurrent Network)と呼ばれる新しいRNNアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-12-30T10:45:22Z) - Learning Dynamics via Graph Neural Networks for Human Pose Estimation
and Tracking [98.91894395941766]
ポーズ検出とは無関係なポーズダイナミクスを学習する新しいオンライン手法を提案する。
具体的には、空間的・時間的情報と視覚的情報の両方を明示的に考慮したグラフニューラルネットワーク(GNN)を通して、このダイナミクスの予測を導出する。
PoseTrack 2017とPoseTrack 2018データセットの実験では、提案手法が人間のポーズ推定とトラッキングタスクの両方において、技術の現状よりも優れた結果が得られることを示した。
論文 参考訳(メタデータ) (2021-06-07T16:36:50Z) - Local Frequency Domain Transformer Networks for Video Prediction [24.126513851779936]
ビデオ予測は、現実世界の視覚的変化を予想するだけでなく、何よりも、教師なしの学習規則として登場した。
本稿では,解釈性を維持しつつ,これらのタスクを別々に実行することのできる,完全微分可能なビルディングブロックを提案する。
論文 参考訳(メタデータ) (2021-05-10T19:48:42Z) - Implicit Latent Variable Model for Scene-Consistent Motion Forecasting [78.74510891099395]
本稿では,センサデータから直接複雑な都市交通のシーン一貫性のある動き予測を学習することを目的とする。
我々は、シーンを相互作用グラフとしてモデル化し、強力なグラフニューラルネットワークを用いてシーンの分散潜在表現を学習する。
論文 参考訳(メタデータ) (2020-07-23T14:31:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。