論文の概要: Motion-o: Trajectory-Grounded Video Reasoning
- arxiv url: http://arxiv.org/abs/2603.18856v1
- Date: Thu, 19 Mar 2026 13:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-20 17:19:06.151223
- Title: Motion-o: Trajectory-Grounded Video Reasoning
- Title(参考訳): Motion-o:軌道を囲むビデオ推論
- Authors: Bishoy Galoaa, Shayda Moezzi, Xiangyu Bai, Sarah Ostadabbas,
- Abstract要約: 視覚言語モデルに対する動き中心の映像理解拡張であるtextbfMotion-o を導入する。
我々はまた、個別のアノテーションを通してオブジェクトの軌跡を生成する構造化推論経路であるMotion Chain of Thoughttext (MT)を紹介した。
実験結果から、Motion-oは空間的時間的接地と軌道予測を改善することが示された。
- 参考スコア(独自算出の注目度): 5.820112753483201
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent research has made substantial progress on video reasoning, with many models leveraging spatio-temporal evidence chains to strengthen their inference capabilities. At the same time, a growing set of datasets and benchmarks now provides structured annotations designed to support and evaluate such reasoning. However, little attention has been paid to reasoning about \emph{how} objects move between observations: no prior work has articulated the motion patterns by connecting successive observations, leaving trajectory understanding implicit and difficult to verify. We formalize this missing capability as Spatial-Temporal-Trajectory (STT) reasoning and introduce \textbf{Motion-o}, a motion-centric video understanding extension to visual language models that makes trajectories explicit and verifiable. To enable motion reasoning, we also introduce a trajectory-grounding dataset artifact that expands sparse keyframe supervision via augmentation to yield denser bounding box tracks and a stronger trajectory-level training signal. Finally, we introduce Motion Chain of Thought (MCoT), a structured reasoning pathway that makes object trajectories through discrete \texttt{<motion/>} tag summarizing per-object direction, speed, and scale (of velocity) change to explicitly connect grounded observations into trajectories. To train Motion-o, we design a reward function that compels the model to reason directly over visual evidence, all while requiring no architectural modifications. Empirical results demonstrate that Motion-o improves spatial-temporal grounding and trajectory prediction while remaining fully compatible with existing frameworks, establishing motion reasoning as a critical extension for evidence-based video understanding. Code is available at https://github.com/ostadabbas/Motion-o.
- Abstract(参考訳): 最近の研究はビデオ推論に大きく進歩しており、多くのモデルは時空間的エビデンスチェーンを利用して推論能力を強化している。
同時に、増え続けるデータセットとベンチマークは、そのような推論をサポートし、評価するために設計された構造化アノテーションを提供する。
しかしながら、観測の間を移動する「emph{how}」物体について推論する上ではほとんど注意が払われていない: 連続した観測を接続することで動きのパターンを明確化し、軌跡の理解を暗黙的に残し、検証することが困難である。
空間時間トラジェクトリ(STT)推論としてこの欠如を形式化し、軌跡を明確かつ検証可能な視覚言語モデルに対する動き中心のビデオ理解拡張である \textbf{Motion-o} を導入する。
動き推論を可能にするために,より密集したボックストラックとより強い軌道レベルのトレーニング信号を生成するために,拡張による疎鍵フレームの監督を拡大するトラジェクトリグラウンドデータセットアーティファクトも導入する。
最後に,MCoT (Motion Chain of Thought) という,物体の軌道を物体ごとの方向,速度,スケール(速度)の変化を要約し,対象の軌道を軌道に明示的に接続する構造的推論経路を導入する。
Motion-oをトレーニングするために、我々はモデルに視覚的証拠を直接推論する報酬関数を設計する。
実験結果から,Motion-oは既存のフレームワークとの完全互換性を維持しつつ,空間的時間的接地と軌跡予測を改善し,エビデンスに基づく映像理解のための重要な拡張として動作推論を確立した。
コードはhttps://github.com/ostadabbas/Motion-o.comから入手できる。
関連論文リスト
- Flowing from Reasoning to Motion: Learning 3D Hand Trajectory Prediction from Egocentric Human Interaction Videos [42.207282959798]
本研究では,219K 6DoFトラジェクトリと3M構造化QAペアを用いた対話段階認識3次元ハンドトラジェクトリ予測のための大規模エゴセントリックデータセットを提案する。
次に、軌跡言語インタフェースを介して視覚的な推論と動き生成をリンクする推論・運動フレームワークであるEgoMANモデルを紹介する。
論文 参考訳(メタデータ) (2025-12-18T18:59:01Z) - MoSiC: Optimal-Transport Motion Trajectory for Dense Self-Supervised Learning [66.53533434848369]
密集した表現を学習する動き誘導型自己学習フレームワークを提案する。
6つの画像およびビデオデータセットと4つの評価ベンチマークにおいて、最先端を1%から6%改善する。
論文 参考訳(メタデータ) (2025-06-10T11:20:32Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - C-Drag: Chain-of-Thought Driven Motion Controller for Video Generation [81.4106601222722]
トラジェクティブに基づくモーションコントロールは、制御可能なビデオ生成のための直感的で効率的なアプローチとして登場した。
我々はC-Dragという制御可能なビデオ生成のためのチェーン・オブ・ソート型モーションコントローラを提案する。
本手法は,物体認識モジュールとChain-of-Thoughtベースの動作推論モジュールを含む。
論文 参考訳(メタデータ) (2025-02-27T08:21:03Z) - Degrees of Freedom Matter: Inferring Dynamics from Point Trajectories [28.701879490459675]
ニューラルネットワークによってパラメータ化された暗黙の運動場を学習し、同一領域内の新規点の動きを予測することを目的とする。
我々は、SIRENが提供する固有正則化を活用し、入力層を変更して時間的に滑らかな運動場を生成する。
実験では, 未知点軌道の予測におけるモデルの性能評価と, 変形を伴う時間メッシュアライメントへの応用について検討した。
論文 参考訳(メタデータ) (2024-06-05T21:02:10Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - MotionTrack: Learning Motion Predictor for Multiple Object Tracking [68.68339102749358]
本研究では,学習可能なモーション予測器を中心に,新しいモーショントラッカーであるMotionTrackを紹介する。
実験結果から、MotionTrackはDancetrackやSportsMOTといったデータセット上での最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-06-05T04:24:11Z) - MSTFormer: Motion Inspired Spatial-temporal Transformer with
Dynamic-aware Attention for long-term Vessel Trajectory Prediction [0.6451914896767135]
MSTFormer は Transformer に基づく動きインスパイアされた容器軌道予測手法である。
軌道の空間的特徴と運動特徴を記述するためのデータ拡張手法を提案する。
第2に,頻繁な動き変換を伴う軌道点に着目したマルチヘッド動的自己認識機構を提案する。
第三に、モデルの性能をさらに向上させるために、知識にインスパイアされた損失関数を構築する。
論文 参考訳(メタデータ) (2023-03-21T02:11:37Z) - Observation-Centric SORT: Rethinking SORT for Robust Multi-Object
Tracking [32.32109475782992]
簡単な動きモデルにより、外観のような他の手段を使わずに、最先端のトラッキング性能が得られることを示す。
そこで我々は,提案手法を OC-SORT,Observatory-Centric SORT,略してOC-SORT と呼ぶ。
論文 参考訳(メタデータ) (2022-03-27T17:57:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。