論文の概要: Lang2Motion: Bridging Language and Motion through Joint Embedding Spaces
- arxiv url: http://arxiv.org/abs/2512.10617v1
- Date: Thu, 11 Dec 2025 13:14:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.369349
- Title: Lang2Motion: Bridging Language and Motion through Joint Embedding Spaces
- Title(参考訳): Lang2Motion: 共同埋め込みスペースによる言語と動作のブリッジ
- Authors: Bishoy Galoaa, Xiangyu Bai, Sarah Ostadabbas,
- Abstract要約: Lang2Motionは、ポイントトラッキングを通じて現実世界のビデオから抽出された動きを用いて、任意のオブジェクトに対する明示的な軌跡を生成する。
Lang2Motionはスタイル転送、セマンティック編集、CLIP対応の軌道表現による潜在空間編集をサポートする。
- 参考スコア(独自算出の注目度): 6.358055069130984
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present Lang2Motion, a framework for language-guided point trajectory generation by aligning motion manifolds with joint embedding spaces. Unlike prior work focusing on human motion or video synthesis, we generate explicit trajectories for arbitrary objects using motion extracted from real-world videos via point tracking. Our transformer-based auto-encoder learns trajectory representations through dual supervision: textual motion descriptions and rendered trajectory visualizations, both mapped through CLIP's frozen encoders. Lang2Motion achieves 34.2% Recall@1 on text-to-trajectory retrieval, outperforming video-based methods by 12.5 points, and improves motion accuracy by 33-52% (12.4 ADE vs 18.3-25.3) compared to video generation baselines. We demonstrate 88.3% Top-1 accuracy on human action recognition despite training only on diverse object motions, showing effective transfer across motion domains. Lang2Motion supports style transfer, semantic interpolation, and latent-space editing through CLIP-aligned trajectory representations.
- Abstract(参考訳): モーメント多様体を結合埋め込み空間に整列させることにより言語誘導点軌道生成のためのフレームワークであるLang2Motionを提案する。
人間の動きやビデオ合成に焦点を当てた以前の研究とは異なり、実世界の映像からポイントトラッキングによって抽出された動きを用いて任意の物体に対する明示的な軌跡を生成する。
トランスをベースとした自動エンコーダは,CLIPの凍結エンコーダにマッピングされたテキスト動作記述と描画された軌跡視覚化という,双方向の監視を通じて軌跡表現を学習する。
Lang2Motionはテキスト・ツー・トラジェクトリ検索で34.2%のRecall@1を達成し、ビデオベースの手法を12.5ポイント上回り、動画生成ベースラインに比べて33-52%(12.4ADE対18.3-25.3)の動作精度を向上させる。
多様な物体の動きのみを訓練したにもかかわらず、人間の行動認識における88.3%のTop-1精度を示し、運動領域間で効果的な伝達を示す。
Lang2Motionはスタイル転送、セマンティック補間、CLIP対応の軌道表現による潜在空間編集をサポートする。
関連論文リスト
- MotionShot: Adaptive Motion Transfer across Arbitrary Objects for Text-to-Video Generation [23.051430600796277]
MotionShotは、参照ターゲット対応をきめ細かい方法で解析するためのフレームワークである。
顕著な外観や構造の違いがあっても、物体を横切る動きをコヒーレントに転送することができる。
論文 参考訳(メタデータ) (2025-07-22T07:51:05Z) - ATI: Any Trajectory Instruction for Controllable Video Generation [25.249489701215467]
本稿では、カメラの動き、オブジェクトレベルの翻訳、きめ細かい局所的な動きをシームレスに統合する、動画生成におけるモーション制御のための統一的なフレームワークを提案する。
提案手法は,事前学習した画像-映像生成モデルの潜在空間にユーザ定義トラジェクトリを投影することにより,凝集性のある解を提供する。
論文 参考訳(メタデータ) (2025-05-28T23:49:18Z) - MotionPro: A Precise Motion Controller for Image-to-Video Generation [108.63100943070592]
我々は、画像間(I2V)生成のための正確なモーションコントローラであるMotionProを提案する。
局所軌道と運動マスクは、微細な運動合成を制御するために用いられる。
WebVid-10MとMC-Benchで行った実験は、MotionProの有効性を実証している。
論文 参考訳(メタデータ) (2025-05-26T17:59:03Z) - Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Exploring Vision Transformers for 3D Human Motion-Language Models with Motion Patches [12.221087476416056]
動き系列の新しい表現である「動きパッチ」を導入し、移動学習を通して視覚変換器(ViT)をモーションエンコーダとして用いることを提案する。
これらの動きパッチは、運動配列に基づく骨格関節の分割と分類によって作成され、様々な骨格構造に対して堅牢である。
2次元画像データを用いたトレーニングにより得られたViTの事前学習による伝達学習により,動作解析の性能が向上することが判明した。
論文 参考訳(メタデータ) (2024-05-08T02:42:27Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。