論文の概要: FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
- arxiv url: http://arxiv.org/abs/2512.10927v1
- Date: Thu, 11 Dec 2025 18:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.550873
- Title: FoundationMotion: Auto-Labeling and Reasoning about Spatial Movement in Videos
- Title(参考訳): FoundationMotion:ビデオにおける空間運動の自己ラベル化と推論
- Authors: Yulu Gan, Ligeng Zhu, Dandan Shan, Baifeng Shi, Hongxu Yin, Boris Ivanovic, Song Han, Trevor Darrell, Jitendra Malik, Marco Pavone, Boyi Li,
- Abstract要約: 大規模なモーションデータセットを構築する完全自動データキュレーションパイプラインであるFoundationMotionを紹介した。
提案手法は,まずビデオ中のオブジェクトを検出してトラジェクトリを抽出し,次にこれらのトラジェクトリとビデオフレームを大規模言語モデルで活用する。
我々はNVILA-Video-15BやQwen2.5-7Bなどのオープンソースモデルを微調整し、性能を損なうことなく動作理解を大幅に改善した。
- 参考スコア(独自算出の注目度): 109.99404241220039
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Motion understanding is fundamental to physical reasoning, enabling models to infer dynamics and predict future states. However, state-of-the-art models still struggle on recent motion benchmarks, primarily due to the scarcity of large-scale, fine-grained motion datasets. Existing motion datasets are often constructed from costly manual annotation, severely limiting scalability. To address this challenge, we introduce FoundationMotion, a fully automated data curation pipeline that constructs large-scale motion datasets. Our approach first detects and tracks objects in videos to extract their trajectories, then leverages these trajectories and video frames with Large Language Models (LLMs) to generate fine-grained captions and diverse question-answer pairs about motion and spatial reasoning. Using datasets produced by this pipeline, we fine-tune open-source models including NVILA-Video-15B and Qwen2.5-7B, achieving substantial improvements in motion understanding without compromising performance on other tasks. Notably, our models outperform strong closed-source baselines like Gemini-2.5 Flash and large open-source models such as Qwen2.5-VL-72B across diverse motion understanding datasets and benchmarks. FoundationMotion thus provides a scalable solution for curating fine-grained motion datasets that enable effective fine-tuning of diverse models to enhance motion understanding and spatial reasoning capabilities.
- Abstract(参考訳): 運動理解は物理的推論の基本であり、モデルがダイナミクスを推論し将来の状態を予測できる。
しかし、最新のモデルでは、大規模な、きめ細かい動きデータセットが不足しているため、最近のモーションベンチマークで依然として苦戦している。
既存のモーションデータセットは、しばしばコストのかかる手作業によるアノテーションで構築され、スケーラビリティを著しく制限する。
この課題に対処するために、大規模なモーションデータセットを構築する完全に自動化されたデータキュレーションパイプラインであるFoundationMotionを紹介します。
提案手法は,まずビデオ中の物体を検出し,その軌跡を抽出し,次に,これらの軌跡と映像フレームをLarge Language Models (LLMs) で利用することにより,細粒度キャプションと,動きと空間的推論に関する多様な問合せ対を生成する。
このパイプラインによって生成されたデータセットを使用して、NVILA-Video-15BやQwen2.5-7Bといったオープンソースモデルを微調整し、他のタスクのパフォーマンスを損なうことなく、動作理解を大幅に改善した。
特に、我々のモデルは、Gemini-2.5 Flashのような強力なクローズドソースベースラインと、さまざまなモーション理解データセットとベンチマークでQwen2.5-VL-72Bのような大規模なオープンソースモデルを上回っています。
したがって、FoundationMotionは、さまざまなモデルの効果的な微調整を可能にし、動きの理解と空間的推論能力を向上する、きめ細かい動きデータセットをキュレートするためのスケーラブルなソリューションを提供する。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - PartRM: Modeling Part-Level Dynamics with Large Cross-State Reconstruction Model [23.768571323272152]
PartRMは、静的オブジェクトの多視点画像から外観、幾何学、部分レベルの動きを同時にモデル化する新しい4D再構成フレームワークである。
我々はPartDrag-4Dデータセットを導入し、20,000以上の状態にまたがる部分レベルのダイナミクスを多視点で観察する。
実験結果から,PartRMはロボット工学の操作作業に応用できる部分レベルの動作学習において,新たな最先端技術を確立していることがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:59:58Z) - AnyMoLe: Any Character Motion In-betweening Leveraging Video Diffusion Models [5.224806515926022]
外部データを持たない任意の文字に対するフレーム間の動きを生成する新しい手法であるAnyMoLeを導入する。
本手法では,文脈理解を高めるために2段階のフレーム生成プロセスを用いる。
論文 参考訳(メタデータ) (2025-03-11T13:28:59Z) - Scaling Large Motion Models with Million-Level Human Motions [67.40066387326141]
我々は、モーション生成のための最初の100万レベルのデータセットであるMotionLibを紹介する。
我々は Projname という名の大きな運動モデルを訓練し、幅広い人間の活動に頑健なパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-10-04T10:48:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。