Fugu-MT 論文翻訳(概要): AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild

論文の概要: AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild

arxiv url: http://arxiv.org/abs/2605.22715v2
Date: Sat, 23 May 2026 13:34:44 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-26 16:32:37.969468
Title: AnyMo: Geometry-Aware Setup-Agnostic Modeling of Human Motion in the Wild
Title（参考訳）: AnyMo: 自然界における人間の運動の幾何学的セットアップに依存しないモデリング
Authors: Baiyu Chen, Zechen Li, Wilson Wongso, Lihuan Li, Xiachong Lin, Hao Xue, Benjamin Tag, Flora Salim,
Abstract要約: 我々はAnyMoを紹介した。AnyMoは、セットアップに依存しない人間のモーションモデリングのための幾何学的フレームワークである。 AnyMoは物理地上でのIMUシミュレーションを使って、多種多様な合成信号を生成する。我々はAnyMoを、ゼロショットアクティビティ認識、クロスモーダル検索、ウェアラブルIMUモーションキャプションの3つの相補的なタスクで評価する。
参考スコア（独自算出の注目度）: 10.47918824187894
License: http://creativecommons.org/licenses/by/4.0/
Abstract: As wearable and mobile devices become increasingly embedded in daily life, they offer a practical way to continuously sense human motion in the wild. But inertial signals are highly dependent on the sensing setup, including body location, mounting position, sensor orientation, device hardware, and sampling protocol. This setup dependence makes it difficult to learn motion representations that transfer across devices and datasets, and limits the broader use of wearable IMUs beyond closed-set recognition. We introduce AnyMo, a geometry-aware framework for setup-agnostic human motion modeling. AnyMo uses physics-grounded IMU simulation over dense body-surface placements to generate diverse and plausible synthetic signals, pre-trains a graph encoder from paired synthetic placement views and masked partial observations, tokenizes multi-position IMU into full-body motion tokens, and aligns these tokens with an LLM for motion-language understanding. We evaluate AnyMo on three complementary tasks: zero-shot activity recognition across 14 unseen downstream datasets, cross-modal retrieval, and wearable IMU motion captioning, where it improves average Accuracy/F1/R@2 by 11.7\%/11.6\%/22.6\% on HAR, increases zero-shot IMU-to-text and text-to-IMU retrieval MRR by 15.9\% and 28.6\%, respectively, and improves zero-shot captioning BERT-F1 by 18.8\%. These results support AnyMo as a generalist model for wearable motion understanding in the wild. Project page: https://baiyuchen.com/project/AnyMo.
Abstract（参考訳）: ウェアラブルやモバイルデバイスが日々の生活に浸透するにつれて、人間の動きを継続的に感知する実用的な方法が提供される。しかし慣性信号は、体の位置、装着位置、センサーの向き、デバイスハードウェア、サンプリングプロトコルなど、センシング設定に大きく依存している。このセットアップ依存により、デバイスやデータセット間で転送されるモーション表現の学習が困難になり、クローズドセット認識以上のウェアラブルIMUの使用が制限される。我々はAnyMoを紹介した。AnyMoは、セットアップに依存しない人間のモーションモデリングのための幾何学的フレームワークである。 AnyMoは、高密度の体表面配置上の物理基底IMUシミュレーションを使用して、多種多様な合成信号を生成するとともに、グラフエンコーダをペアの合成配置ビューから事前訓練し、部分的な観察をマスクし、マルチポジションIMUをフルボディのモーショントークンにトークン化し、これらのトークンを動き言語理解のためのLLMと整列させる。我々はAnyMoを,14の下流データセットに対するゼロショットアクティビティ認識,クロスモーダル検索,およびウェアラブルIMUモーションキャプションで評価し,平均精度/F1/R@2を11.7\%/11.6\%/22.6\%,HAR上でゼロショットIMU-to-textおよびテキスト-IMU検索MRRを15.9\%,28.6\%,ゼロショットキャプションBERT-F1を18.8\%改善した。これらの結果は、野生でのウェアラブルモーション理解のためのジェネラリストモデルとしてAnyMoをサポートする。プロジェクトページ:https://baiyuchen.com/project/AnyMo.com

関連論文リスト

Garment Inertial Denoiser (GID): Endowing Accurate Motion Capture via Loose IMU Denoiser [24.814697238576088]
GID(Garment Inertial Denoiser)は,ゆるいMoCapを3段階に分解する軽量なプラグアンドプレイ変換器である。 GIDは位置認識の専門家アーキテクチャを使用し、共有時間バックボーンはグローバルな動きをモデル化し、IMUの専門家の頭文字は局所力学を専門とする。実験により、GIDはシングルユーザートレーニングから正確なリアルタイムデノジングを可能にし、目に見えないユーザー、動き、衣服にまたがる一般化を可能にする。
論文参考訳（メタデータ） (2026-01-04T04:08:21Z)
MotionTeller: Multi-modal Integration of Wearable Time-Series with LLMs for Health and Behavioral Understanding [4.158479111055355]
MotionTellerは、大規模言語モデル(LLM)と微小レベルのウェアラブルアクティビティデータを統合した生成フレームワークである。我々は,実世界のNHANES記録から得られた554383対の新たなデータセットを構築し,言語トークンにのみ依存したクロスエントロピー損失を用いてモデルを訓練する。 MotionTellerは高いセマンティック忠実度(BERT-F1 = 0.924)と語彙精度(ROUGE-1 = 0.722)を実現し、ROUGE-1ではプロンプトベースのベースラインを7%上回っている。
論文参考訳（メタデータ） (2025-12-25T04:37:07Z)
Human Motion Capture from Loose and Sparse Inertial Sensors with Garment-aware Diffusion Models [25.20942802233326]
Garment Inertial Poser (GaIP) は、粗いIMUセンサーから全身のポーズを推定する方法である。実験の結果,シミュレーションおよび合成データに基づいて訓練した拡散法は,慣性フルボディポーズ推定器よりも優れていた。
論文参考訳（メタデータ） (2025-06-18T09:16:36Z)
Ego4o: Egocentric Human Motion Capture and Understanding from Multi-Modal Input [62.51283548975632]
この研究は、VR/ARヘッドセット、スマートグラス、携帯電話、スマートウォッチなどの消費者向けウェアラブルデバイスを使用して、人間の動きを追跡し、理解することに焦点を当てている。 Ego4o(o for omni)は,マルチモーダルなエゴセントリックインプットから人間の動きを同時に捉え,理解するための新しいフレームワークである。
論文参考訳（メタデータ） (2025-04-11T11:18:57Z)
Suite-IN: Aggregating Motion Features from Apple Suite for Robust Inertial Navigation [10.634236058278722]
異なる身体部位のセンサーが捉えた動きデータには、局所的な動き情報とグローバルな動き情報の両方が含まれている。慣性ナビゲーションのためのApple Suiteからの動作データを集約するマルチデバイスディープラーニングフレームワーク Suite-INを提案する。
論文参考訳（メタデータ） (2024-11-12T14:23:52Z)
Masked Video and Body-worn IMU Autoencoder for Egocentric Action Recognition [24.217068565936117]
本稿では,身近なIMUの動作データをエゴセントリックなビデオと統合する行動認識手法を提案する。体全体に配置された複数のIMUデバイスの複雑な関係をモデル化するために、複数のIMUデバイスにおける協調力学を利用する。実験により,提案手法は複数の公開データセット上で最先端の性能を実現することができることが示された。
論文参考訳（メタデータ） (2024-07-09T07:53:16Z)
Priority-Centric Human Motion Generation in Discrete Latent Space [59.401128190423535]
テキスト・ツー・モーション生成のための優先中心運動離散拡散モデル(M2DM)を提案する。 M2DMは、コード崩壊に対処するために、グローバルな自己注意機構と正規化用語を組み込んでいる。また、各動きトークンの重要度から決定される革新的なノイズスケジュールを用いた動き離散拡散モデルを提案する。
論文参考訳（メタデータ） (2023-08-28T10:40:16Z)
QuestSim: Human Motion Tracking from Sparse Sensors with Simulated Avatars [80.05743236282564]
人間の身体の動きのリアルタイム追跡は、AR/VRにおける没入感のある体験に不可欠である。本稿では,HMDと2つのコントローラから疎信号を取り出す強化学習フレームワークを提案する。一つのポリシーは、多様な移動スタイル、異なる体の大きさ、新しい環境に対して堅牢であることを示す。
論文参考訳（メタデータ） (2022-09-20T00:25:54Z)
MoDi: Unconditional Motion Synthesis from Diverse Data [51.676055380546494]
多様な動きを合成する無条件生成モデルであるMoDiを提案する。我々のモデルは、多様な、構造化されていない、ラベルなしのモーションデータセットから完全に教師なしの設定で訓練されている。データセットに構造が欠けているにもかかわらず、潜在空間は意味的にクラスタ化可能であることを示す。
論文参考訳（メタデータ） (2022-06-16T09:06:25Z)
Transformer Inertial Poser: Attention-based Real-time Human Motion Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文参考訳（メタデータ） (2022-03-29T16:24:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。