論文の概要: Track and Caption Any Motion: Query-Free Motion Discovery and Description in Videos
- arxiv url: http://arxiv.org/abs/2512.10607v1
- Date: Thu, 11 Dec 2025 13:03:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.364982
- Title: Track and Caption Any Motion: Query-Free Motion Discovery and Description in Videos
- Title(参考訳): 動きの追跡とキャプション:ビデオで検索不要な動きの発見と説明
- Authors: Bishoy Galoaa, Sarah Ostadabbas,
- Abstract要約: Track and Caption Any Motionは、ビデオの自動理解のためのモーション中心のフレームワークである。
映像を自律的に観察し、複数の動きを識別し、それぞれの自然言語記述を対応する軌跡に空間的に根拠付ける。
MeViSベンチマークでは、TAMは58.4%の動画テキスト検索、64.9 JFを空間的グラウンドで達成し、84.7%の精度でビデオ毎の4.8の関連表現を発見する。
- 参考スコア(独自算出の注目度): 6.412245476044759
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We propose Track and Caption Any Motion (TCAM), a motion-centric framework for automatic video understanding that discovers and describes motion patterns without user queries. Understanding videos in challenging conditions like occlusion, camouflage, or rapid movement often depends more on motion dynamics than static appearance. TCAM autonomously observes a video, identifies multiple motion activities, and spatially grounds each natural language description to its corresponding trajectory through a motion-field attention mechanism. Our key insight is that motion patterns, when aligned with contrastive vision-language representations, provide powerful semantic signals for recognizing and describing actions. Through unified training that combines global video-text alignment with fine-grained spatial correspondence, TCAM enables query-free discovery of multiple motion expressions via multi-head cross-attention. On the MeViS benchmark, TCAM achieves 58.4% video-to-text retrieval, 64.9 JF for spatial grounding, and discovers 4.8 relevant expressions per video with 84.7% precision, demonstrating strong cross-task generalization.
- Abstract(参考訳): 本稿では,ユーザクエリを使わずに動きパターンを発見し,記述する,動画自動理解のための動き中心のフレームワークTCAMを提案する。
ビデオのオクルージョンやカモフラージュ、急激な動きといった困難な条件下での理解は、静的な外観よりも運動力学に依存していることが多い。
TCAMは、動画を自律的に観察し、複数の動きを識別し、動き場注意機構を通じて、それぞれの自然言語記述を対応する軌道に空間的に接地する。
我々の重要な洞察は、動きパターンは、対照的な視覚言語表現と整合するときに、行動を認識して記述するための強力な意味信号を提供するということである。
グローバルなビデオテキストアライメントときめ細かな空間対応を組み合わせた統合トレーニングにより、TAMはマルチヘッド・クロスアテンションによる複数動作表現のクエリフリー発見を可能にする。
MeViSベンチマークでは、TAMは58.4%の動画テキスト検索、空間接地のための64.9 JFを実現し、84.7%の精度でビデオ毎の4.8の関連式を発見し、クロスタスクの一般化を示す。
関連論文リスト
- Segment Any Motion in Videos [80.72424676419755]
本研究では,長距離軌道運動キューとDINOに基づく意味的特徴を組み合わせた移動物体セグメンテーションを提案する。
本モデルでは,動作を優先し,セマンティックサポートを統合しつつ,時空間軌道注意と動き・セマンティック・デカップリング・エンベディングを用いた。
論文 参考訳(メタデータ) (2025-03-28T09:34:11Z) - Motion Prompting: Controlling Video Generation with Motion Trajectories [57.049252242807874]
スパースもしくは高密度なビデオ軌跡を条件とした映像生成モデルを訓練する。
ハイレベルなユーザリクエストを,詳細なセミセンスな動作プロンプトに変換する。
我々は、カメラや物体の動き制御、画像との「相互作用」、動画転送、画像編集など、様々な応用を通してアプローチを実証する。
論文 参考訳(メタデータ) (2024-12-03T18:59:56Z) - MotionClone: Training-Free Motion Cloning for Controllable Video Generation [41.621147782128396]
MotionCloneは、参照ビデオから多目的なモーションコントロールビデオ生成までのモーションクローンを可能にする、トレーニング不要のフレームワークである。
MotionCloneは、大域的なカメラの動きと局所的な物体の動きの両方の習熟度を示し、動きの忠実さ、テキストアライメント、時間的一貫性の点で顕著に優れている。
論文 参考訳(メタデータ) (2024-06-08T03:44:25Z) - Spectral Motion Alignment for Video Motion Transfer using Diffusion Models [54.32923808964701]
スペクトル運動アライメント(英: Spectral Motion Alignment、SMA)は、フーリエ変換とウェーブレット変換を用いて運動ベクトルを洗練・整列するフレームワークである。
SMAは周波数領域の正規化を取り入れて動きパターンを学習し、全体フレームのグローバルな動きのダイナミクスの学習を容易にする。
大規模な実験は、様々なビデオカスタマイズフレームワーク間の計算効率と互換性を維持しながら、モーション転送を改善するSMAの有効性を示す。
論文 参考訳(メタデータ) (2024-03-22T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。