論文の概要: Learning Long-term Motion Embeddings for Efficient Kinematics Generation
- arxiv url: http://arxiv.org/abs/2604.11737v1
- Date: Mon, 13 Apr 2026 17:14:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-14 20:13:16.707585
- Title: Learning Long-term Motion Embeddings for Efficient Kinematics Generation
- Title(参考訳): 能率運動量生成のための長期動作埋め込みの学習
- Authors: Nick Stracke, Kolja Bauer, Stefan Andreas Baumann, Miguel Angel Bautista, Josh Susskind, Björn Ommer,
- Abstract要約: トラッカーモデルから得られた大規模軌跡から長期動作の埋め込みを学習する方法を示す。
これにより、テキストプロンプトや空間ポークスによって指定された目標を満たす、長くて現実的な動きを効率的に生成することができる。
結果として得られる動き分布は、最先端のビデオモデルと特殊タスク固有のアプローチの両方よりも優れている。
- 参考スコア(独自算出の注目度): 22.395558604172127
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and predicting motion is a fundamental component of visual intelligence. Although modern video models exhibit strong comprehension of scene dynamics, exploring multiple possible futures through full video synthesis remains prohibitively inefficient. We model scene dynamics orders of magnitude more efficiently by directly operating on a long-term motion embedding that is learned from large-scale trajectories obtained from tracker models. This enables efficient generation of long, realistic motions that fulfill goals specified via text prompts or spatial pokes. To achieve this, we first learn a highly compressed motion embedding with a temporal compression factor of 64x. In this space, we train a conditional flow-matching model to generate motion latents conditioned on task descriptions. The resulting motion distributions outperform those of both state-of-the-art video models and specialized task-specific approaches.
- Abstract(参考訳): 動きの理解と予測は視覚知能の基本的な構成要素である。
現代ビデオモデルはシーンダイナミクスの強い理解を示すが、フルビデオ合成による複数の将来の可能性を探究することは違法に非効率である。
我々は,トラッカーモデルから得られた大規模軌跡から学習した長期動作埋め込みを直接操作することで,シーンの動的順序を桁違いに効率的にモデル化する。
これにより、テキストプロンプトや空間ポークスによって指定された目標を満たす、長くて現実的な動きを効率的に生成することができる。
そこで我々はまず,時間的圧縮係数64xの高度に圧縮された動き埋め込みを学習する。
本研究では,タスク記述に基づく動作遅延を生成するために,条件付きフローマッチングモデルを訓練する。
結果として得られる動き分布は、最先端のビデオモデルと特殊タスク固有のアプローチの両方よりも優れている。
関連論文リスト
- GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - A Self-supervised Motion Representation for Portrait Video Generation [19.56640370303683]
本稿では,コンパクトかつ表現力のある動き表現であるセマンティックラテントモーション(SeMo)を提案する。
提案手法は,高品質な視覚的結果と効率的な推論を両立させる。
我々のアプローチは、現実主義の81%の勝利率を持つ最先端モデルを上回る。
論文 参考訳(メタデータ) (2025-03-13T06:43:21Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - Lagrangian Motion Fields for Long-term Motion Generation [51.02126882968116]
本稿では,ラグランジアン運動場の概念について紹介する。
各関節を短い間隔で一様速度でラグランジアン粒子として扱うことにより、我々のアプローチは運動表現を一連の「超運動」に凝縮する。
私たちのソリューションは万能で軽量で、ニューラルネットワークの前処理の必要性を排除しています。
論文 参考訳(メタデータ) (2024-09-03T01:38:06Z) - Controllable Longer Image Animation with Diffusion Models [12.565739255499594]
動画拡散モデルを用いた動き先行画像を用いたオープンドメイン制御可能な画像アニメーション手法を提案する。
本手法は動画から運動場情報を抽出することにより移動領域の運動方向と速度を正確に制御する。
本稿では,画像アニメーションタスクに特化して最適化されたノイズ再スケジュールに基づく,効率的な長周期ビデオ生成手法を提案する。
論文 参考訳(メタデータ) (2024-05-27T16:08:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。