論文の概要: MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment
- arxiv url: http://arxiv.org/abs/2602.19004v1
- Date: Sun, 22 Feb 2026 01:54:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.439387
- Title: MoBind: Motion Binding for Fine-Grained IMU-Video Pose Alignment
- Title(参考訳): MoBind:細粒IMU-Video Poseアライメントのためのモーションバインディング
- Authors: Duc Duy Nguyen, Tat-Jun Chin, Minh Hoai,
- Abstract要約: 3つの課題に対処するために設計された,階層的なコントラスト学習フレームワークであるMoBindを紹介する。
モーション関連キューを分離するために、MoBindはIMU信号を生のピクセルではなく骨格的なモーションシーケンスと整列する。
詳細な時間的対応を捉えるために、MoBindは階層的なコントラスト戦略を採用し、まずトークンレベルの時間的セグメントを整列させ、次にグローバル(体全体)のモーションアグリゲーションと局所的な(身体部分)アライメントを融合させる。
- 参考スコア(独自算出の注目度): 32.178798481694834
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to learn a joint representation between inertial measurement unit (IMU) signals and 2D pose sequences extracted from video, enabling accurate cross-modal retrieval, temporal synchronization, subject and body-part localization, and action recognition. To this end, we introduce MoBind, a hierarchical contrastive learning framework designed to address three challenges: (1) filtering out irrelevant visual background, (2) modeling structured multi-sensor IMU configurations, and (3) achieving fine-grained, sub-second temporal alignment. To isolate motion-relevant cues, MoBind aligns IMU signals with skeletal motion sequences rather than raw pixels. We further decompose full-body motion into local body-part trajectories, pairing each with its corresponding IMU to enable semantically grounded multi-sensor alignment. To capture detailed temporal correspondence, MoBind employs a hierarchical contrastive strategy that first aligns token-level temporal segments, then fuses local (body-part) alignment with global (body-wide) motion aggregation. Evaluated on mRi, TotalCapture, and EgoHumans, MoBind consistently outperforms strong baselines across all four tasks, demonstrating robust fine-grained temporal alignment while preserving coarse semantic consistency across modalities. Code is available at https://github.com/bbvisual/ MoBind.
- Abstract(参考訳): 我々は,映像から抽出した慣性計測ユニット(IMU)信号と2次元ポーズシーケンスの結合表現を学習し,正確なクロスモーダル検索,時間的同期,主観的および身体的局所化,行動認識を実現することを目的とする。
そこで本研究では,(1)無関係な視覚的背景のフィルタリング,(2)構造化マルチセンサIMU構成のモデリング,(3)微細な時間的アライメントの実現,という3つの課題に対処する階層型コントラスト学習フレームワークであるMoBindを紹介する。
モーション関連キューを分離するために、MoBindはIMU信号を生のピクセルではなく骨格的なモーションシーケンスと整列する。
さらに、全体運動を局所的な身体部分軌跡に分解し、対応するIMUと組み合わせることで、意味的に接地されたマルチセンサーアライメントを可能にする。
詳細な時間的対応を捉えるために、MoBindは階層的なコントラスト戦略を採用し、最初にトークンレベルの時間的セグメントを整列させ、グローバルな(身体全体の)モーションアグリゲーションと局所的な(身体の一部)アライメントを融合させる。
mRi、TotalCapture、EgoHumansに基づいて評価され、MoBindは4つのタスクすべてで一貫して強力なベースラインを上回り、厳密な時間的アライメントを示しながら、モジュール間の粗いセマンティック一貫性を保っている。
コードはhttps://github.com/bbvisual/MoBind.comで入手できる。
関連論文リスト
- DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Multi-granular body modeling with Redundancy-Free Spatiotemporal Fusion for Text-Driven Motion Generation [10.843503146808839]
HiSTF Mambaを3つの部分からなるフレームワークとして紹介する: Dual-tial Mamba, Bi-Temporal Mamba, Spatiotemporal Fusion Module (DSFM)。
HumanML3Dベンチマークの実験では、HiSTF Mambaはいくつかの指標でよく機能し、高い忠実さとテキストとモーション間の密接なセマンティックアライメントを実現している。
論文 参考訳(メタデータ) (2025-03-10T04:01:48Z) - Hierarchical Temporal Context Learning for Camera-based Semantic Scene Completion [57.232688209606515]
カメラによるセマンティックシーンの補完を改善するための,新たな時間的文脈学習パラダイムであるHTCLを提案する。
提案手法は,Semantic KITTIベンチマークで1st$をランク付けし,mIoUの点でLiDARベースの手法を超えている。
論文 参考訳(メタデータ) (2024-07-02T09:11:17Z) - Implicit Motion-Compensated Network for Unsupervised Video Object
Segmentation [25.41427065435164]
教師なしビデオオブジェクトセグメンテーション(UVOS)は、ビデオシーケンスの背景から一次前景オブジェクトを自動的に分離することを目的としている。
既存のUVOS手法では、視覚的に類似した環境(外観ベース)がある場合や、動的背景と不正確な流れ(フローベース)のために予測品質の劣化に悩まされている場合、堅牢性を欠いている。
本稿では,隣接するフレームから特徴レベルにおける現在のフレームへの一致した動き情報と相補的キュー(textiti.e.$, appearance and motion)を組み合わせた暗黙的動き補償ネットワーク(IMCNet)を提案する。
論文 参考訳(メタデータ) (2022-04-06T13:03:59Z) - Exploring Optical-Flow-Guided Motion and Detection-Based Appearance for
Temporal Sentence Grounding [61.57847727651068]
テンポラルな文グラウンドディングは、与えられた文クエリに従って、意図しないビデオのターゲットセグメントをセマンティックにローカライズすることを目的としている。
これまでのほとんどの研究は、ビデオ全体のフレーム全体のフレームレベルの特徴を学習することに集中しており、それらをテキスト情報と直接一致させる。
我々は,光フロー誘導型モーションアウェア,検出ベース外観アウェア,3D認識オブジェクトレベル機能を備えた,動き誘導型3Dセマンティック推論ネットワーク(MA3SRN)を提案する。
論文 参考訳(メタデータ) (2022-03-06T13:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。