論文の概要: HuMoCon: Concept Discovery for Human Motion Understanding
- arxiv url: http://arxiv.org/abs/2505.20920v1
- Date: Tue, 27 May 2025 09:10:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.533867
- Title: HuMoCon: Concept Discovery for Human Motion Understanding
- Title(参考訳): HuMoCon:人間の動作理解のための概念発見
- Authors: Qihang Fang, Chengcheng Tang, Bugra Tekin, Shugao Ma, Yanchao Yang,
- Abstract要約: HuMoConは、高度な人間の行動分析のためのモーションビデオ理解フレームワークである。
HuMoConは意味論的で一般化可能な特徴を抽出するためにマルチモーダルエンコーダを訓練する。
- 参考スコア(独自算出の注目度): 14.987145689605084
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We present HuMoCon, a novel motion-video understanding framework designed for advanced human behavior analysis. The core of our method is a human motion concept discovery framework that efficiently trains multi-modal encoders to extract semantically meaningful and generalizable features. HuMoCon addresses key challenges in motion concept discovery for understanding and reasoning, including the lack of explicit multi-modality feature alignment and the loss of high-frequency information in masked autoencoding frameworks. Our approach integrates a feature alignment strategy that leverages video for contextual understanding and motion for fine-grained interaction modeling, further with a velocity reconstruction mechanism to enhance high-frequency feature expression and mitigate temporal over-smoothing. Comprehensive experiments on standard benchmarks demonstrate that HuMoCon enables effective motion concept discovery and significantly outperforms state-of-the-art methods in training large models for human motion understanding. We will open-source the associated code with our paper.
- Abstract(参考訳): 本稿では,人間行動解析のための新しい動画理解フレームワークであるHuMoConを紹介する。
本手法のコアとなるのは、多モードエンコーダを効果的に訓練し、意味論的かつ一般化可能な特徴を抽出する、人間の動作概念発見フレームワークである。
HuMoConは、明示的なマルチモダリティ機能アライメントの欠如や、マスク付き自動エンコーディングフレームワークにおける高周波情報の欠如など、理解と推論のためのモーションコンセプト発見における重要な課題に対処する。
提案手法は,映像の文脈的理解と動きを微粒な相互作用モデリングに活用する特徴アライメント戦略と,高頻度特徴表現の強化と時間的過平化を緩和する速度再構成機構を統合した。
標準的なベンチマークに関する総合的な実験は、HuMoConが効果的な動作概念の発見を可能にし、人間の動作理解のための大規模モデルのトレーニングにおいて最先端の手法を大幅に上回っていることを示している。
関連したコードを私たちの論文でオープンソース化します。
関連論文リスト
- CoMo: Learning Continuous Latent Motion from Internet Videos for Scalable Robot Learning [47.195002937893115]
CoMoは、多様なインターネットスケールのビデオから、より情報に富んだ連続的な動きの表現を学ぶことを目指している。
動作評価と学習指導のための2つの新しい指標を提案する。
CoMoは強力なゼロショットの一般化を示しており、以前は目に見えないビデオドメインに対して連続的な擬似アクションを生成することができる。
論文 参考訳(メタデータ) (2025-05-22T17:58:27Z) - GENMO: A GENeralist Model for Human MOtion [64.16188966024542]
本稿では,1つのフレームワークで動作推定と生成を橋渡しする汎用人体運動モデル GENMO を提案する。
我々の重要な洞察は、出力運動が観測された条件信号を正確に満たさなければならないような制約された動き生成として運動推定を再構成することである。
我々の新しいアーキテクチャは、可変長動きと混合マルチモーダル条件(テキスト、オーディオ、ビデオ)を異なる時間間隔で処理し、柔軟な制御を提供する。
論文 参考訳(メタデータ) (2025-05-02T17:59:55Z) - DeepInteraction++: Multi-Modality Interaction for Autonomous Driving [80.8837864849534]
我々は,モダリティごとの個別表現を学習し,維持することのできる,新しいモダリティインタラクション戦略を導入する。
DeepInteraction++はマルチモーダルなインタラクション・フレームワークであり、マルチモーダルな表現型インタラクション・エンコーダとマルチモーダルな予測型インタラクション・デコーダを特徴とする。
実験では,3次元物体検出とエンドツーエンドの自律走行の両方において,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2024-08-09T14:04:21Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - MoConVQ: Unified Physics-Based Motion Control via Scalable Discrete
Representations [25.630268570049708]
MoConVQは、スケーラブルな離散表現を活用する物理ベースのモーションコントロールのための新しい統合フレームワークである。
提案手法は,数十時間の動作例にまたがる大規模非構造データセットから,効果的に動作埋め込みを学習する。
論文 参考訳(メタデータ) (2023-10-16T09:09:02Z) - MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis [73.52948992990191]
MoFusionは、高品質な条件付き人間のモーション合成のための新しいノイズ拡散ベースのフレームワークである。
本研究では,運動拡散フレームワーク内での運動可視性に対して,よく知られたキネマティック損失を導入する方法を提案する。
文献の確立されたベンチマークにおけるMoFusionの有効性を,技術の現状と比較した。
論文 参考訳(メタデータ) (2022-12-08T18:59:48Z) - UniCon: Universal Neural Controller For Physics-based Character Motion [70.45421551688332]
大規模動作データセットから学習することで,異なるスタイルで数千の動作を習得する物理ベースのユニバーサルニューラルコントローラ(UniCon)を提案する。
UniConは、キーボード駆動制御をサポートし、ロコモーションとアクロバティックスキルの大きなプールから引き出されたモーションシーケンスを作成し、ビデオで撮影した人を物理ベースの仮想アバターにテレポートする。
論文 参考訳(メタデータ) (2020-11-30T18:51:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。