論文の概要: MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation
- arxiv url: http://arxiv.org/abs/2602.08594v2
- Date: Wed, 11 Feb 2026 16:45:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.285175
- Title: MOSAIC: Bridging the Sim-to-Real Gap in Generalist Humanoid Motion Tracking and Teleoperation with Rapid Residual Adaptation
- Title(参考訳): MOSAIC: 総合的ヒューマノイド運動追跡と遠隔操作における同時対リアルギャップのブリッジ化
- Authors: Zhenguo Sun, Bo-Sheng Huang, Yibo Peng, Xukun Li, Jingyu Ma, Yu Sun, Zhe Li, Haojun Jiang, Biao Gao, Zhenshan Bing, Xinlong Wang, Alois Knoll,
- Abstract要約: 一般のヒューマノイドモーショントラッカーは、データをスケーリングしてトレーニングすることで、強力なシミュレーション指標を達成したが、持続的な遠隔操作の間、ハードウェア上では不安定なままであることが多い。
複数のインタフェースをまたいだヒューマノイドモーショントラッキングと全身遠隔操作のためのオープンソースのフルスタックシステムMOSAICを提案する。
- 参考スコア(独自算出の注目度): 50.643488406438514
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Generalist humanoid motion trackers have recently achieved strong simulation metrics by scaling data and training, yet often remain brittle on hardware during sustained teleoperation due to interface- and dynamics-induced errors. We present MOSAIC, an open-source, full-stack system for humanoid motion tracking and whole-body teleoperation across multiple interfaces. MOSAIC first learns a teleoperation-oriented general motion tracker via RL on a multi-source motion bank with adaptive resampling and rewards that emphasize world-frame motion consistency, which is critical for mobile teleoperation. To bridge the sim-to-real interface gap without sacrificing generality, MOSAIC then performs rapid residual adaptation: an interface-specific policy is trained using minimal interface-specific data, and then distilled into the general tracker through an additive residual module, outperforming naive fine-tuning or continual learning. We validate MOSAIC with systematic ablations, out-of-distribution benchmarking, and real-robot experiments demonstrating robust offline motion replay and online long-horizon teleoperation under realistic latency and noise. Project page: baai-humanoid.github.io/MOSAIC.
- Abstract(参考訳): 一般のヒューマノイドモーショントラッカーは、データとトレーニングをスケーリングすることで、強力なシミュレーション指標を達成したが、インターフェースやダイナミックスによるエラーによる持続的遠隔操作において、ハードウェア上では不安定なままであることが多い。
複数のインタフェースをまたいだヒューマノイドモーショントラッキングと全身遠隔操作のためのオープンソースのフルスタックシステムMOSAICを提案する。
MOSAICはまず,マルチソースモーションバンク上で遠隔操作指向の汎用モーショントラッカーを学習する。
汎用性を犠牲にすることなく、sim-to-realインターフェースギャップをブリッジするために、MOSAICは、素早い残留適応を行う: インターフェース固有のポリシーは、最小のインターフェース固有のデータを使用して訓練され、付加的な残留モジュールを通して一般的なトラッカーに蒸留され、ナイーブな微調整や連続的な学習よりも優れた性能を発揮する。
我々は,MOSAICを系統的改善,アウト・オブ・ディストリビューション・ベンチマーク,実ロボット実験で検証し,ロバストなオフライン動作再生とオンライン長時間遠隔操作を現実的なレイテンシとノイズ下で実証した。
プロジェクトページ:baai- Humanoid.github.io/MOSAIC
関連論文リスト
- Interpretable Multimodal Gesture Recognition for Drone and Mobile Robot Teleoperation via Log-Likelihood Ratio Fusion [14.332919759770645]
視覚に基づくジェスチャー認識はハンズフリー遠隔操作の一手法として検討されている。
両手首にApple Watchの慣性データとカスタム手袋の容量感覚信号を統合するマルチモーダルジェスチャー認識フレームワークを提案する。
我々のフレームワークは、最先端のビジョンベースのベースラインに匹敵するパフォーマンスを実現する。
論文 参考訳(メタデータ) (2026-02-27T05:52:04Z) - PMG: Parameterized Motion Generator for Human-like Locomotion Control [14.637220434597168]
我々は,人間のような動きを1つの統合システムで生成するリアルタイムモーションジェネレータを開発した。
一つの統合システムにおいて、PMGは人間のような自然な動きを生じさせ、高次元の制御入力に正確に応答することを示す。
これらの結果は、自然かつ展開可能なヒューマノイド制御への実践的で実験的に検証された経路を確立する。
論文 参考訳(メタデータ) (2026-02-13T06:38:04Z) - TeleGate: Whole-Body Humanoid Teleoperation via Gated Expert Selection with Motion Prior [27.930225667015872]
本稿では,ヒューマノイドロボットのための統合された全身遠隔操作フレームワークTeleGateを提案する。
私たちのキーとなる考え方は、軽量なゲーティングネットワークをトレーニングすることで、ドメイン固有の専門家ポリシーの完全な能力を維持することです。
リアルタイム遠隔操作における将来の参照軌跡の欠如を補うため,VAEベースのモーション先行モジュールを導入する。
論文 参考訳(メタデータ) (2026-02-10T10:14:06Z) - VLNVerse: A Benchmark for Vision-Language Navigation with Versatile, Embodied, Realistic Simulation and Evaluation [61.82502719679122]
本稿では,Versatile, Embodied, Realistic Simulation, EvaluationのベンチマークであるVLNVerseを紹介する。
VLNVerseは、スケーラブルでフルスタックのAI問題としてVLNを再定義する。
ベンチマーク内の全てのタスクに対処できる新しいマルチタスクモデルを提案する。
論文 参考訳(メタデータ) (2025-12-22T04:27:26Z) - TSkel-Mamba: Temporal Dynamic Modeling via State Space Model for Human Skeleton-based Action Recognition [59.99922360648663]
TSkel-Mambaは、空間力学と時間力学の両方を効果的に捉えるハイブリッドトランスフォーマー-Mambaフレームワークである。
MTIモジュールはマルチスケールのCycle演算子を使用して、チャネル間の時間的相互作用をキャプチャする。
論文 参考訳(メタデータ) (2025-12-12T11:55:16Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - SETransformer: A Hybrid Attention-Based Architecture for Robust Human Activity Recognition [7.291558599547268]
ウェアラブルセンサデータを用いたヒューマンアクティビティ認識(HAR)は,モバイルコンピューティング,ヘルスケア,人間とコンピュータのインタラクションにおいて中心的な課題となっている。
本稿では、トランスフォーマーに基づく時間モデルと、チャネルワイド・サスペンション・アンド・エキサイティング(SE)アテンションと、学習可能な時間アテンションプーリング機構を組み合わせたハイブリッドディープニューラルネットワークSETransformerを提案する。
我々は、WISDMデータセット上でSETransformerを評価し、LSTM、GRU、BiLSTM、CNNベースラインといった従来のモデルよりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-05-25T23:39:34Z) - Hybrid Neural-MPM for Interactive Fluid Simulations in Real-Time [57.30651532625017]
本稿では,数値シミュレーション,神経物理,生成制御を統合した新しいハイブリッド手法を提案する。
本システムでは, 多様な2D/3Dシナリオ, 材料タイプ, 障害物相互作用における堅牢な性能を示す。
受け入れ次第、モデルとデータの両方をリリースすることを約束します。
論文 参考訳(メタデータ) (2025-05-25T01:27:18Z) - Transformer Inertial Poser: Attention-based Real-time Human Motion
Reconstruction from Sparse IMUs [79.72586714047199]
本研究では,6つのIMUセンサからリアルタイムに全体動作を再構築する,注意に基づく深層学習手法を提案する。
提案手法は, 実装が簡単で, 小型でありながら, 定量的かつ質的に新しい結果が得られる。
論文 参考訳(メタデータ) (2022-03-29T16:24:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。