論文の概要: Semantic Co-Speech Gesture Synthesis and Real-Time Control for Humanoid Robots
- arxiv url: http://arxiv.org/abs/2512.17183v1
- Date: Fri, 19 Dec 2025 02:55:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:40.416682
- Title: Semantic Co-Speech Gesture Synthesis and Real-Time Control for Humanoid Robots
- Title(参考訳): ヒューマノイドロボットの意味的共音声ジェスチャ合成とリアルタイム制御
- Authors: Gang Zhang,
- Abstract要約: 本稿では,意味論的に意味のある共同音声ジェスチャーを合成し,人間型ロボット上でリアルタイムに展開する,革新的なエンドツーエンドフレームワークを提案する。
私たちの中核的なイノベーションは、セマンティックスを意識したジェスチャー合成モジュールの巧妙な統合にあります。
本システムでは, セマンティックに適切かつリズミカルにコヒーレントなジェスチャーを生成する。
- 参考スコア(独自算出の注目度): 5.531678625546847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an innovative end-to-end framework for synthesizing semantically meaningful co-speech gestures and deploying them in real-time on a humanoid robot. This system addresses the challenge of creating natural, expressive non-verbal communication for robots by integrating advanced gesture generation techniques with robust physical control. Our core innovation lies in the meticulous integration of a semantics-aware gesture synthesis module, which derives expressive reference motions from speech input by leveraging a generative retrieval mechanism based on large language models (LLMs) and an autoregressive Motion-GPT model. This is coupled with a high-fidelity imitation learning control policy, the MotionTracker, which enables the Unitree G1 humanoid robot to execute these complex motions dynamically and maintain balance. To ensure feasibility, we employ a robust General Motion Retargeting (GMR) method to bridge the embodiment gap between human motion data and the robot platform. Through comprehensive evaluation, we demonstrate that our combined system produces semantically appropriate and rhythmically coherent gestures that are accurately tracked and executed by the physical robot. To our knowledge, this work represents a significant step toward general real-world use by providing a complete pipeline for automatic, semantic-aware, co-speech gesture generation and synchronized real-time physical deployment on a humanoid robot.
- Abstract(参考訳): 本稿では,意味論的に意味のある共同音声ジェスチャーを合成し,人間型ロボット上でリアルタイムに展開する,革新的なエンドツーエンドフレームワークを提案する。
本システムは,高度なジェスチャー生成技術と堅牢な物理制御を組み合わせることで,ロボットの自然な表現的非言語コミュニケーションを実現するという課題に対処する。
我々の中核的な革新は、大言語モデル(LLM)と自己回帰型モーション-GPTモデルに基づく生成的検索機構を活用することで、音声入力から表現的参照動作を導出する意味認識ジェスチャ合成モジュールの巧妙な統合にある。
これは高忠実な模倣学習制御ポリシであるMotionTrackerと組み合わせて、Unitree G1のヒューマノイドロボットがこれらの複雑な動きを動的に実行し、バランスを維持することができる。
実現可能性を確保するため,人間の運動データとロボットプラットフォームとの間のエンボディメントギャップを橋渡しするために,頑健なジェネラルモーション・リターゲティング(GMR)手法を用いる。
総合的な評価を通じて,我々の統合システムは,物理的ロボットによって正確に追跡・実行されるセマンティックに適切かつリズミカルにコヒーレントなジェスチャーを生成することを実証した。
我々の知る限り、本研究は、人型ロボット上で自動的、意味認識、共同音声ジェスチャー生成、およびリアルタイム物理展開のための完全なパイプラインを提供することにより、一般的な実世界の利用に向けた重要なステップである。
関連論文リスト
- Physical Human-Robot Interaction for Grasping in Augmented Reality via Rigid-Soft Robot Synergy [43.680646123465316]
ハイブリッド剛性ソフトロボットは、剛性マニピュレータの精度とソフトアームの適合性と適応性を組み合わせる。
本稿では,ハイブリッドソフトロボットの遠隔操作を可能にする,拡張現実(AR)ベースの物理ロボットインタラクションフレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-19T06:56:47Z) - Real-Time Synchronized Interaction Framework for Emotion-Aware Humanoid Robots [0.5156484100374058]
音声韻律と全体ジェスチャーを同期するNAOロボットのためのリアルタイムフレームワークを提案する。
シームレスな感覚運動調整を可能にすることにより、コンテキスト認識型社会ロボットの展開が促進される。
論文 参考訳(メタデータ) (2026-01-24T03:53:09Z) - FRoM-W1: Towards General Humanoid Whole-Body Control with Language Instructions [147.04372611893032]
FRoM-W1は、自然言語を用いた一般的なヒューマノイド全体の動作制御を実現するために設計されたオープンソースのフレームワークである。
我々はUnitree H1とG1ロボット上でFRoM-W1を広範囲に評価した。
その結果,HumanML3D-Xベンチマークにおいて,人体全体の動作生成に優れた性能を示した。
論文 参考訳(メタデータ) (2026-01-19T07:59:32Z) - AdaMorph: Unified Motion Retargeting via Embodiment-Aware Adaptive Transformers [49.796014934503184]
本研究では、単一モデルで多様なロボット形態に人間の動きを適応させることができる統一型ニューラルネットワークフレームワークを提案する。
12個の異なるヒューマノイドロボットの実験結果から、AdaMorphが異種トポロジにわたって効果的に制御できることが示されている。
論文 参考訳(メタデータ) (2026-01-12T07:39:38Z) - Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。
提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文 参考訳(メタデータ) (2025-11-28T08:11:24Z) - Towards Immersive Human-X Interaction: A Real-Time Framework for Physically Plausible Motion Synthesis [51.95817740348585]
Human-Xは、様々な実体をまたいだ没入的で物理的に妥当なヒューマンインタラクションを可能にするために設計された、新しいフレームワークである。
本手法は, 自己回帰型反応拡散プランナを用いて, リアルタイムに反応と反応を同時予測する。
我々のフレームワークは、人間とロボットのインタラクションのための仮想現実インターフェースを含む、現実世界のアプリケーションで検証されている。
論文 参考訳(メタデータ) (2025-08-04T06:35:48Z) - EMOTION: Expressive Motion Sequence Generation for Humanoid Robots with In-Context Learning [10.266351600604612]
本稿では,ヒューマノイドロボットにおける表現型動き列を生成するためのEMOTIONというフレームワークを提案する。
本研究では,EMOTIONが生成する動作の自然性と理解性を比較したオンラインユーザ研究を行い,その人間フィードバックバージョンであるEMOTION++について述べる。
論文 参考訳(メタデータ) (2024-10-30T17:22:45Z) - Hierarchical Procedural Framework for Low-latency Robot-Assisted Hand-Object Interaction [45.256762954338704]
ロボット支援ハンドオブジェクトインタラクション(HOI)を実現するための階層型手続きフレームワークを提案する。
オープンループ階層は、手の動きをロボットの動きに変換するように設計されたモーションプリミティブに基づいて、RGBベースの人間の手の3D再構成を利用する。
リングウェアリングタスクのケーススタディは、医療や製造業などの補助技術への本研究の適用の可能性を示している。
論文 参考訳(メタデータ) (2024-05-29T21:20:16Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - ImitationNet: Unsupervised Human-to-Robot Motion Retargeting via Shared Latent Space [9.806227900768926]
本稿では,ロボットの動きに対する新しいディープラーニング手法を提案する。
本手法では,新しいロボットへの翻訳を容易にする,人間とロボットのペアデータを必要としない。
我々のモデルは、効率と精度の観点から、人間とロボットの類似性に関する既存の研究よりも優れています。
論文 参考訳(メタデータ) (2023-09-11T08:55:04Z) - Synthesis and Execution of Communicative Robotic Movements with
Generative Adversarial Networks [59.098560311521034]
我々は、繊細な物体を操作する際に人間が採用するのと同じキネマティクス変調を2つの異なるロボットプラットフォームに転送する方法に焦点を当てる。
我々は、ロボットのエンドエフェクターが採用する速度プロファイルを、異なる特徴を持つ物体を輸送する際に人間が何をするかに触発されて調整する。
我々は、人体キネマティクスの例を用いて訓練され、それらを一般化し、新しい有意義な速度プロファイルを生成する、新しいジェネレーティブ・アドバイサル・ネットワークアーキテクチャを利用する。
論文 参考訳(メタデータ) (2022-03-29T15:03:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。