論文の概要: TrajLoom: Dense Future Trajectory Generation from Video
- arxiv url: http://arxiv.org/abs/2603.22606v1
- Date: Mon, 23 Mar 2026 22:10:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.202341
- Title: TrajLoom: Dense Future Trajectory Generation from Video
- Title(参考訳): TrajLoom:ビデオから未来の軌道を生成する
- Authors: Zewei Zhang, Jia Jun Cheng Xian, Kaiwen Liu, Ming Liang, Hang Chu, Jun Chen, Renjie Liao,
- Abstract要約: 本稿では,過去の映像から将来の軌跡や軌跡を予測するフレームワークを提案する。
最先端手法と比較して,提案手法は24フレームから81フレームまでの予測地平線を延長する。
予測された軌道は、下流のビデオ生成と編集を直接サポートする。
- 参考スコア(独自算出の注目度): 17.78215938363174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predicting future motion is crucial in video understanding and controllable video generation. Dense point trajectories are a compact, expressive motion representation, but modeling their future evolution from observed video remains challenging. We propose a framework that predicts future trajectories and visibility from past trajectories and video context. Our method has three components: (1) Grid-Anchor Offset Encoding, which reduces location-dependent bias by representing each point as an offset from its pixel-center anchor; (2) TrajLoom-VAE, which learns a compact spatiotemporal latent space for dense trajectories with masked reconstruction and a spatiotemporal consistency regularizer; and (3) TrajLoom-Flow, which generates future trajectories in latent space via flow matching, with boundary cues and on-policy K-step fine-tuning for stable sampling. We also introduce TrajLoomBench, a unified benchmark spanning real and synthetic videos with a standardized setup aligned with video-generation benchmarks. Compared with state-of-the-art methods, our approach extends the prediction horizon from 24 to 81 frames while improving motion realism and stability across datasets. The predicted trajectories directly support downstream video generation and editing. Code, model checkpoints, and datasets are available at https://trajloom.github.io/.
- Abstract(参考訳): 将来の動きを予測することは、ビデオ理解と制御可能なビデオ生成に不可欠である。
難点軌道はコンパクトで表現力のある運動表現であるが、観察されたビデオから将来の進化をモデル化することは依然として困難である。
本稿では,過去の軌跡や映像から将来の軌跡や可視性を予測するフレームワークを提案する。
提案手法は,(1)画素中心アンカーからオフセットとして各点を表現して位置依存バイアスを低減するグリッドアンカーオフセット符号化,(2)マスク付き再構成と時空間整合性正規化器を備えた高密度トラジェクタのコンパクトな時空間学習を行うTrajLoom-VAE,(3)フローマッチングによる遅延空間の将来のトラジェクタを生成するTrajLoom-Flow,。
また、TrajLoomBenchは、実ビデオと合成ビデオにまたがる統一されたベンチマークであり、ビデオ生成ベンチマークと整合した標準化されたセットアップである。
我々の手法は最先端の手法と比較して、24フレームから81フレームまで予測の地平線を延長し、データセット間の動きリアリズムと安定性を改善した。
予測された軌道は、下流のビデオ生成と編集を直接サポートする。
コード、モデルチェックポイント、データセットはhttps://trajloom.github.io/.com/で公開されている。
関連論文リスト
- Trace Anything: Representing Any Video in 4D via Trajectory Fields [98.85848134960172]
軌道場 (Trajectory Field) は、各フレーム内の各ピクセルに時間の連続した3次元軌跡関数を割り当てる密集写像である。
我々は,1つのフィードフォワードパスで軌道場全体を予測するニューラルネットワークであるTrace Anythingを紹介する。
私たちは、新しいプラットフォームからのデータを含む大規模な4Dデータに基づいて、Trace Anythingモデルをトレーニングしました。
論文 参考訳(メタデータ) (2025-10-15T17:59:04Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - PointOdyssey: A Large-Scale Synthetic Dataset for Long-Term Point
Tracking [90.29143475328506]
本稿では,大規模合成データセットとデータ生成フレームワークであるPointOdysseyを紹介する。
私たちのゴールは、自然主義的な動きを持つ長いビデオに重点を置いて、最先端の技術を推し進めることです。
実世界のモーションキャプチャーデータを用いて変形可能なキャラクタをアニメーション化し、モーションキャプチャー環境に合わせて3Dシーンを構築し、リアルビデオ上で構造から抽出したトラジェクトリを用いてカメラ視点を描画する。
論文 参考訳(メタデータ) (2023-07-27T17:58:11Z) - Minimum Latency Deep Online Video Stabilization [77.68990069996939]
本稿では,オンラインビデオ安定化作業のための新しいカメラパス最適化フレームワークを提案する。
本研究では,近年の市販の高品位深度モーションモデルを用いて動き推定を行い,カメラの軌道を復元する。
我々の手法は、定性的にも量的にも最先端のオンライン手法を大きく上回っている。
論文 参考訳(メタデータ) (2022-12-05T07:37:32Z) - AutoTrajectory: Label-free Trajectory Extraction and Prediction from
Videos using Dynamic Points [92.91569287889203]
軌道抽出と予測のための新しいラベルなしアルゴリズムAutoTrajectoryを提案する。
動画中の移動物体をよりよく捉えるために,ダイナミックポイントを導入する。
ビデオ内の歩行者などの移動物体を表すインスタンスポイントに動的ポイントを集約する。
論文 参考訳(メタデータ) (2020-07-11T08:43:34Z) - Future Video Synthesis with Object Motion Prediction [54.31508711871764]
画像を直接合成するのではなく、複雑なシーンのダイナミクスを理解するように設計されている。
将来のシーンコンポーネントの出現は、背景の非剛性変形と移動物体のアフィン変換によって予測される。
CityscapesとKITTIデータセットの実験結果から、我々のモデルは視覚的品質と精度で最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-04-01T16:09:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。