論文の概要: Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control
- arxiv url: http://arxiv.org/abs/2512.23650v2
- Date: Sun, 04 Jan 2026 07:49:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.559303
- Title: Do You Have Freestyle? Expressive Humanoid Locomotion via Audio Control
- Title(参考訳): フリースタイルはあるか? 音声制御による表現型ヒューマノイドロコモーション
- Authors: Zhe Li, Cheng Chi, Yangyang Wei, Boan Zhu, Tao Huang, Zhenguo Sun, Yibo Peng, Pengwei Wang, Zhongyuan Wang, Fangzhou Liu, Chang Xu, Shanghang Zhang,
- Abstract要約: 現在のヒューマノイドロボットには表現力のある即興能力がなく、事前に定義された動きやスパースコマンドに限られている。
音声から音楽駆動ダンスと音声駆動の音声合成ジェスチャーを直接生成できる,最初の統合型音声-音声合成フレームワークであるRoboPerformを提案する。
RoboPerformは、多様な動きパターンに適応するためのResMoEポリシーと、オーディオスタイル注入のための拡散ベースの学生ポリシーを実現している。
- 参考スコア(独自算出の注目度): 52.83779852397341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans intuitively move to sound, but current humanoid robots lack expressive improvisational capabilities, confined to predefined motions or sparse commands. Generating motion from audio and then retargeting it to robots relies on explicit motion reconstruction, leading to cascaded errors, high latency, and disjointed acoustic-actuation mapping. We propose RoboPerform, the first unified audio-to-locomotion framework that can directly generate music-driven dance and speech-driven co-speech gestures from audio. Guided by the core principle of "motion = content + style", the framework treats audio as implicit style signals and eliminates the need for explicit motion reconstruction. RoboPerform integrates a ResMoE teacher policy for adapting to diverse motion patterns and a diffusion-based student policy for audio style injection. This retargeting-free design ensures low latency and high fidelity. Experimental validation shows that RoboPerform achieves promising results in physical plausibility and audio alignment, successfully transforming robots into responsive performers capable of reacting to audio.
- Abstract(参考訳): 人間は直感的に音に動くが、現在のヒューマノイドロボットには表現力のある即興能力がなく、事前に定義された動きやまばらなコマンドに限られている。
音声から動きを生成し、それをロボットに再ターゲティングすることは、明確な動きの再構成に頼っている。
音声から音楽駆動ダンスと音声駆動の音声合成ジェスチャーを直接生成できる,最初の統合型音声-音声合成フレームワークであるRoboPerformを提案する。
動作 = 内容 + スタイル」という基本原理で導かれたこのフレームワークは、音声を暗黙的なスタイルの信号として扱い、明示的な動き再構成の必要性を排除している。
RoboPerformは、多様な動きパターンに適応するためのResMoEの教師ポリシーと、オーディオスタイル注入のための拡散ベースの学生ポリシーを統合している。
この再ターゲティングフリーな設計は、低レイテンシと高忠実性を保証する。
実験による検証によると、RoboPerformは物理的な可視性とオーディオアライメントの有望な結果を達成し、ロボットを音声に反応可能なレスポンシブパフォーマーに変換することに成功した。
関連論文リスト
- UniLS: End-to-End Audio-Driven Avatars for Unified Listening and Speaking [21.70536197968411]
UniLSは、デュアルトラックオーディオのみによって駆動される統一された音声リスト式を生成するための最初のエンドツーエンドフレームワークである。
聴取能力は44.1%向上し、より多様で自然な聴取表現を生み出している。
論文 参考訳(メタデータ) (2025-12-10T05:25:58Z) - From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - MOSPA: Human Motion Generation Driven by Spatial Audio [83.31594478750682]
本稿では,多種多様で高品質な空間音声・動きデータを含む,空間音声駆動型人体運動データセットについて紹介する。
本研究では,身体運動と空間音声の関係を忠実に把握する,MOSPAと呼ばれるスパティアルオーディオによって駆動される人間の運動生成のためのフレームワークを開発する。
本手法は,本課題における最先端性能を実現する。
論文 参考訳(メタデータ) (2025-07-16T06:33:11Z) - Driving Animatronic Robot Facial Expression From Speech [7.8799497614708605]
本稿では,音声入力からアニマトロニクスロボットの表情を駆動する,新しいスキン中心のアプローチを提案する。
提案手法は線形スキン (LBS) を統一表現として用い, エンボディメント設計とモーション合成の両面での革新を導く。
このアプローチは、1台のNvidia GTX 4090上で4000fps以上のリアルタイムにアニマトロニクスの顔に非常にリアルな表情を生成する能力を示す。
論文 参考訳(メタデータ) (2024-03-19T12:11:57Z) - Audio-Driven Co-Speech Gesture Video Generation [92.15661971086746]
音声駆動型音声合成におけるこの課題を定義し,検討する。
私たちの重要な洞察は、共同音声ジェスチャーは共通の動きパターンと微妙なリズムダイナミクスに分解できるということです。
本稿では,再利用可能な音声のジェスチャーパターンを効果的に捉えるための新しいフレームワークであるAudio-driveN Gesture vIdeo gEneration(ANGIE)を提案する。
論文 参考訳(メタデータ) (2022-12-05T15:28:22Z) - Freeform Body Motion Generation from Speech [53.50388964591343]
音声から体の動きを生成することは、音声から体の動きへの非決定論的マッピングのために本質的に困難である。
2ストリームアーキテクチャを組み込んだ新しいフリーフォームモーション生成モデル(FreeMo)を提案する。
実験は、いくつかのベースラインに対して優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-04T13:03:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。