Fugu-MT 論文翻訳(概要): ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control

論文の概要: ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control

arxiv url: http://arxiv.org/abs/2603.16188v1
Date: Tue, 17 Mar 2026 07:16:18 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-18 17:42:07.142144
Title: ECHO: Edge-Cloud Humanoid Orchestration for Language-to-Motion Control
Title（参考訳）: ECHO: 言語間移動制御のためのエッジクラウドヒューマノイドオーケストレーション
Authors: Haozhe Jia, Jianfei Song, Yuan Zhang, Honglei Jin, Youcheng Fan, Wenshuo Chen, Wei Zhang, Yutao Yue,
Abstract要約: 本稿では,ヒューマノイドロボットの言語駆動型全身制御のためのエッジホスト型フレームワークECHOを提案する。クラウドネイティブ拡散に基づくテキスト・トゥ・モーション・ジェネレータは、自然言語命令から動作参照を合成する。エッジ展開された強化学習トラッカーは、ロボットのクローズドループでそれらを実行する。
参考スコア（独自算出の注目度）: 8.983091538704645
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present ECHO, an edge--cloud framework for language-driven whole-body control of humanoid robots. A cloud-hosted diffusion-based text-to-motion generator synthesizes motion references from natural language instructions, while an edge-deployed reinforcement-learning tracker executes them in closed loop on the robot. The two modules are bridged by a compact, robot-native 38-dimensional motion representation that encodes joint angles, root planar velocity, root height, and a continuous 6D root orientation per frame, eliminating inference-time retargeting from human body models and remaining directly compatible with low-level PD control. The generator adopts a 1D convolutional UNet with cross-attention conditioned on CLIP-encoded text features; at inference, DDIM sampling with 10 denoising steps and classifier-free guidance produces motion sequences in approximately one second on a cloud GPU. The tracker follows a Teacher--Student paradigm: a privileged teacher policy is distilled into a lightweight student equipped with an evidential adaptation module for sim-to-real transfer, further strengthened by morphological symmetry constraints and domain randomization. An autonomous fall recovery mechanism detects falls via onboard IMU readings and retrieves recovery trajectories from a pre-built motion library. We evaluate ECHO on a retargeted HumanML3D benchmark, where it achieves strong generation quality (FID 0.029, R-Precision Top-1 0.686) under a unified robot-domain evaluator, while maintaining high motion safety and trajectory consistency. Real-world experiments on a Unitree G1 humanoid demonstrate stable execution of diverse text commands with zero hardware fine-tuning.
Abstract（参考訳）: 本稿では,ヒューマノイドロボットの言語駆動型全身制御のためのエッジクラウドフレームワークECHOを提案する。クラウドホストされた拡散ベースのテキスト・トゥ・モーション・ジェネレータは、自然言語命令から動作参照を合成し、エッジデプロイされた強化学習トラッカーはロボットのクローズドループでそれらを実行する。この2つのモジュールは、関節角度、ルート平面速度、ルート高さ、連続した6次元のルート方向を符号化し、人体モデルからの推論時間の再ターゲティングを排除し、低レベルのPD制御と直接互換性のあるコンパクトな38次元運動表現でブリッジされている。ジェネレータは、CLIP符号化されたテキスト機能に基づいて、クロスアテンション条件付き1D畳み込みUNetを採用する。推測では、DDIMサンプリングの10ステップと分類子なしガイダンスにより、クラウドGPU上で約1秒で動きシーケンスを生成する。このトラッカーは、教師-学生のパラダイムに従っている: 特権教師のポリシーは、sim-to-real転送のための明らかな適応モジュールを備えた軽量の学生に蒸留され、モルフォロジー対称性の制約とドメインランダム化によってさらに強化される。自律的な転倒回復機構は、オンボードIMU読み取りを介して転倒を検出し、予め構築された動作ライブラリから回復軌跡を検索する。我々は,ロボットドメイン評価器を用いて,高い動作安全性と軌道整合性を維持しつつ,強い生成品質(FID 0.029, R-Precision Top-1 0.686)を達成するHumanML3Dベンチマークを用いてECHOを評価する。 Unitree G1のヒューマノイドを用いた実世界の実験では、ハードウェアの微調整をゼロにする多種多様なテキストコマンドが安定に実行されることを示した。

関連論文リスト

ULTRA: Unified Multimodal Control for Autonomous Humanoid Whole-Body Loco-Manipulation [55.467742403416175]
本稿では,大規模モーションキャプチャをヒューマノイドに変換する物理駆動型ニューラルネットワークを提案する。我々は高密度参照とスパースタスク仕様の両方をサポートする統合マルチモーダルコントローラを学習する。その結果,ULTRAは自我中心の知覚から,自律的,目標条件付き全体ロコ操作に一般化することが示された。
論文参考訳（メタデータ） (2026-03-03T18:59:29Z)
UniAct: Unified Motion Generation and Action Streaming for Humanoid Robots [27.794309591475326]
ヒューマノイドロボティクスにおける長年の目標は、人間レベルの柔軟性を持つ多様なマルチモーダル命令に従うことができる汎用エージェントの実現である。ここでは、微調整MLLMと因果ストリーミングパイプラインを統合した2段階のフレームワークであるUniActを用いて、500ms以下のレイテンシで、ヒューマノイドロボットがマルチモーダル命令を実行できることを示す。提案手法は, ゼロショット追尾における不完全な参照動作の成功率を19%向上させる。
論文参考訳（メタデータ） (2025-12-30T16:20:13Z)
From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文参考訳（メタデータ） (2025-10-16T17:57:47Z)
Diffusion-Based Impedance Learning for Contact-Rich Manipulation Tasks [13.17252299377244]
インピーダンス制御は物理的相互作用を形作るが、実現可能なインピーダンスパラメータを選択することでタスク認識チューニングを必要とする。両ドメインを組み合わせたフレームワークである拡散型インピーダンス学習を提案する。
論文参考訳（メタデータ） (2025-09-24T02:07:17Z)
Nonprehensile Riemannian Motion Predictive Control [57.295751294224765]
本稿では,リアル・ツー・シムの報酬分析手法を導入し,リアルなロボット・プラットフォームに対する行動の可能性を確実に予測する。連続的なアクション空間でオブジェクトを反応的にプッシュするクローズドループコントローラを作成します。我々は,RMPCが乱雑な環境だけでなく,乱雑な環境においても頑健であり,ベースラインよりも優れていることを観察した。
論文参考訳（メタデータ） (2021-11-15T18:50:04Z)
SABER: Data-Driven Motion Planner for Autonomously Navigating Heterogeneous Robots [112.2491765424719]
我々は、データ駆動型アプローチを用いて、異種ロボットチームをグローバルな目標に向けてナビゲートする、エンドツーエンドのオンラインモーションプランニングフレームワークを提案する。モデル予測制御(SMPC)を用いて,ロボット力学を満たす制御入力を計算し,障害物回避時の不確実性を考慮した。リカレントニューラルネットワークは、SMPC有限時間地平線解における将来の状態の不確かさを素早く推定するために用いられる。ディープQ学習エージェントがハイレベルパスプランナーとして機能し、SMPCにロボットを望ましいグローバルな目標に向けて移動させる目標位置を提供する。
論文参考訳（メタデータ） (2021-08-03T02:56:21Z)
Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文参考訳（メタデータ） (2021-01-26T16:01:02Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。