論文の概要: SemanticMoments: Training-Free Motion Similarity via Third Moment Features
- arxiv url: http://arxiv.org/abs/2602.09146v1
- Date: Mon, 09 Feb 2026 19:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.220384
- Title: SemanticMoments: Training-Free Motion Similarity via Third Moment Features
- Title(参考訳): SemanticMoments: 第三モーメント機能によるトレーニングフリーモーション類似性
- Authors: Saar Huberman, Kfir Goldberg, Or Patashnik, Sagie Benaim, Ron Mokady,
- Abstract要約: 我々は、制御された合成データと人間の注釈付き実世界のデータセットを組み合わせたSimMotionベンチマークを導入する。
既存のモデルはこれらのベンチマークでは性能が悪く、しばしば外見から動きを遠ざけることに失敗する。
本研究では,事前学習したセマンティックモデルから特徴量に関する時間統計を計算したトレーニング不要なSemanticMomentsを提案する。
- 参考スコア(独自算出の注目度): 21.309249661429646
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieving videos based on semantic motion is a fundamental, yet unsolved, problem. Existing video representation approaches overly rely on static appearance and scene context rather than motion dynamics, a bias inherited from their training data and objectives. Conversely, traditional motion-centric inputs like optical flow lack the semantic grounding needed to understand high-level motion. To demonstrate this inherent bias, we introduce the SimMotion benchmarks, combining controlled synthetic data with a new human-annotated real-world dataset. We show that existing models perform poorly on these benchmarks, often failing to disentangle motion from appearance. To address this gap, we propose SemanticMoments, a simple, training-free method that computes temporal statistics (specifically, higher-order moments) over features from pre-trained semantic models. Across our benchmarks, SemanticMoments consistently outperforms existing RGB, flow, and text-supervised methods. This demonstrates that temporal statistics in a semantic feature space provide a scalable and perceptually grounded foundation for motion-centric video understanding.
- Abstract(参考訳): セマンティックモーションに基づくビデオの検索は、基本的な問題だが未解決の課題だ。
既存のビデオ表現アプローチは、トレーニングデータや目的から継承されたバイアスであるモーションダイナミクスよりも、静的な外観やシーンコンテキストに過度に依存している。
逆に、光学フローのような伝統的な動き中心の入力は、ハイレベルな動きを理解するのに必要な意味的な基礎を欠いている。
この固有のバイアスを示すために、制御された合成データと人間の注釈付き実世界のデータセットを組み合わせたSimMotionベンチマークを導入する。
既存のモデルはこれらのベンチマークでは性能が悪く、しばしば外見から動きを遠ざけることに失敗する。
このギャップに対処するために、事前学習された意味モデルの特徴に関する時間統計(特に高次モーメント)を計算できる、シンプルでトレーニング不要なSemanticMomentsを提案する。
ベンチマーク全体では、SemanticMomentsは既存のRGB、フロー、テキスト管理メソッドよりも一貫して優れています。
このことは、意味的特徴空間における時間統計が、動き中心のビデオ理解のためのスケーラブルで知覚的に根ざした基盤を提供することを示している。
関連論文リスト
- No MoCap Needed: Post-Training Motion Diffusion Models with Reinforcement Learning using Only Textual Prompts [16.05508249584636]
本稿では,テキストプロンプトのみを用いて事前学習した動き拡散モデルを微調整するポストトレーニングフレームワークを提案する。
私たちのアプローチは、動き適応のためのフレキシブルで、データ効率が高く、プライバシ保護のソリューションです。
論文 参考訳(メタデータ) (2025-10-08T13:12:10Z) - Punching Bag vs. Punching Person: Motion Transferability in Videos [5.302871580118083]
行動認識モデルは強力な一般化を示すが、多様な文脈にまたがるハイレベルな動きの概念を効果的に伝達できるのか?
本研究では,3次元物体の動きを持つ合成データセットであるSyn-TA,Kineetics400-TA,および自然ビデオデータセットから適応したSomething-v2-TAの3つの動き伝達性フレームワークを提案する。
これらのベンチマークで13の最先端モデルを評価し、新しい文脈におけるハイレベルな動作を認識する際に、性能の大幅な低下を観察する。
論文 参考訳(メタデータ) (2025-07-31T18:19:20Z) - SynMotion: Semantic-Visual Adaptation for Motion Customized Video Generation [56.90807453045657]
SynMotion(シンモクション)は、セマンティックガイダンスと視覚適応を併用した動画生成モデルである。
意味レベルでは、主観と動きの表現をアンタングルする二項意味理解機構を導入する。
視覚レベルでは、効率的なモーションアダプタをトレーニング済みのビデオ生成モデルに統合し、動きの忠実度と時間的コヒーレンスを高める。
論文 参考訳(メタデータ) (2025-06-30T10:09:32Z) - FlowMo: Variance-Based Flow Guidance for Coherent Motion in Video Generation [51.110607281391154]
FlowMoは、テキスト・ビデオ・モデルにおける動きコヒーレンスを高めるためのトレーニング不要のガイダンス手法である。
時間次元のパッチワイドな分散を測定して動きのコヒーレンスを推定し、サンプリング中にこの分散を動的に減少させるためにモデルを導く。
論文 参考訳(メタデータ) (2025-06-01T19:55:33Z) - Towards Robust and Controllable Text-to-Motion via Masked Autoregressive Diffusion [33.9786226622757]
テキスト記述から3次元動作を生成するための頑健な動き生成フレームワークMoMADiffを提案する。
我々のモデルはフレキシブルなユーザ提供仕様をサポートし、動き合成の空間的側面と時間的側面の両方を正確に制御できる。
提案手法は, 動作品質, 命令忠実度, 定着度において, 常に最先端のモデルより優れる。
論文 参考訳(メタデータ) (2025-05-16T09:06:15Z) - SemanticBoost: Elevating Motion Generation with Augmented Textual Cues [73.83255805408126]
我々のフレームワークはセマンティック・エンハンスメント・モジュールとコンテキスト調整型モーション・デノイザ(CAMD)から構成されている。
CAMDアプローチは、高品質でセマンティックに一貫性のあるモーションシーケンスを生成するための全エンコンパスソリューションを提供する。
実験の結果,SemanticBoostは拡散法として自己回帰法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-31T09:58:11Z) - Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。
M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。
また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-08-28T10:40:16Z) - SLAMP: Stochastic Latent Appearance and Motion Prediction [14.257878210585014]
モーションはビデオ予測の重要なキューであり、ビデオコンテンツを静的なコンポーネントと動的コンポーネントに分離することでしばしば利用される。
動きを利用する以前の研究のほとんどは決定論的だが、未来の本質的な不確実性をモデル化できる方法がある。
本稿では,動きの履歴に基づいて未来を予測することによって,映像の出現と動きを推論する。
論文 参考訳(メタデータ) (2021-08-05T17:52:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。