Fugu-MT 論文翻訳(概要): Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control

論文の概要: Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control

arxiv url: http://arxiv.org/abs/2605.14417v2
Date: Wed, 20 May 2026 06:15:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-21 14:55:44.11694
Title: Before the Body Moves: Learning Anticipatory Joint Intent for Language-Conditioned Humanoid Control
Title（参考訳）: 身体運動前:言語依存型ヒューマノイド制御のための予測ジョイントインテントの学習
Authors: Haozhe Jia, Honglei Jin, Yuan Zhang, Youcheng Fan, Shaofeng Liang, Lei Wang, Shuxu Jin, Kuimou Yu, Zinuo Zhang, Jianfei Song, Wenshuo Chen, Yutao Yue,
Abstract要約: 我々は,言語生成とクローズドループ制御の予測的結合インテントインタフェースを学習する階層的なフレームワークである textbfDAJI を提案する。実験の結果,DAJIは予測潜在学習,単命令生成,ストリーミング指導などにおいて,強い結果が得られた。
参考スコア（独自算出の注目度）: 7.4507678595872795
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Natural language is an intuitive interface for humanoid robots, yet streaming whole-body control requires control representations that are executable now and anticipatory of future physical transitions. Existing language-conditioned humanoid systems typically generate kinematic references that a low-level tracker must repair reactively, or use latent/action policies whose outputs do not explicitly encode upcoming contact changes, support transfers, and balance preparation. We propose \textbf{DAJI} (\emph{Dynamics-Aligned Joint Intent}), a hierarchical framework that learns an anticipatory joint-intent interface between language generation and closed-loop control. DAJI-Act distills a future-aware teacher into a deployable diffusion action policy through student-driven rollouts, while DAJI-Flow autoregressively generates future intent chunks from language and intent history. Experiments show that DAJI achieves strong results in anticipatory latent learning, single-instruction generation, and streaming instruction following, reaching 94.42\% rollout success on HumanML3D-style generation and 0.152 subsequence FID on BABEL.
Abstract（参考訳）: 自然言語はヒューマノイドロボットの直感的なインタフェースであるが、全身制御のストリーミングには、現在実行可能であり、将来の物理的遷移を期待する制御表現が必要である。既存の言語条件のヒューマノイドシステムは、通常、低レベルのトラッカーが反応的に修復しなければならないキネマティック参照を生成するか、出力が今後の接触変化、サポート転送、バランス準備を明示的にエンコードしていない潜時/アクションポリシーを使用する。本稿では,言語生成とクローズドループ制御の予期せぬ結合インテントインターフェースを学習する階層的なフレームワークである‘textbf{DAJI}(\emph{Dynamics-Aligned Joint Intent})を提案する。 DAJI-Actは、将来の教師を学生主導のロールアウトを通じて展開可能な拡散アクションポリシーに蒸留し、DAJI-Flowは言語と意図の歴史から将来の意図を自動回帰的に生成する。実験の結果,DAJIは予測潜在学習,シングルインストラクション生成,ストリーミングインストラクションの順で,HumanML3Dスタイルの生成では94.42\%,BABELでは0.152のサブシーケンスFIDを達成した。

関連論文リスト

CLAW: Composable Language-Annotated Whole-body Motion Generation [55.99805728566105]
CLAWは,言語を付加した全身運動データをスケーラブルに生成するためのパイプラインである。 CLAWは運動プランナーから運動プリミティブを構成し、動き、方向、速度、骨盤の高さ、持続時間によってパラメータ化される。低レベルコントローラは、これらの参照を MuJoCo シミュレーションで追跡し、物理的に接地された軌道を生成する。
論文参考訳（メタデータ） (2026-04-13T10:02:04Z)
Empathetic Motion Generation for Humanoid Educational Robots via Reasoning-Guided Vision--Language--Motion Diffusion Architecture [4.77320559246954]
本稿では,ヒューマノイドロボットの学習シナリオにおける指示認識協調音声ジェスチャを生成するための推論誘導型視覚言語移動拡散フレームワーク(RG-VLMD)を提案する。本システムは,適応的かつ意味論的に整合したロボット動作を実現するために,マルチモーダルな感情推定,教育的推論,教示的条件付き動作合成を統合する。
論文参考訳（メタデータ） (2026-03-19T11:26:04Z)
Generative Scenario Rollouts for End-to-End Autonomous Driving [58.99809446189301]
VLA(Vision-Language-Action)モデルは、エンドツーエンドの自動運転システムの高効率な計画モデルとして登場している。本稿では,VLAモデルのためのプラグイン・アンド・プレイフレームワークであるGenerative Scenario Rollouts (GeRo)を提案する。
論文参考訳（メタデータ） (2026-01-16T17:59:28Z)
Commanding Humanoid by Free-form Language: A Large Language Action Model with Unified Motion Vocabulary [59.98573566227095]
本稿では,Humanoid-LLAについて紹介する。Humanoid-LLAは,表現型言語コマンドを人型ロボットの身体的実行可能な全身動作にマッピングする,大規模言語行動モデルである。提案手法は,人間とヒューマノイドの運動プリミティブを共有された離散空間に整合させる統一運動語彙,物理的実現性を確保するための特権ポリシーから抽出した語彙指向コントローラ,動的に認識された報酬を用いた強化学習を用いた物理インフォームド微調整ステージの3つのコアコンポーネントを統合する。
論文参考訳（メタデータ） (2025-11-28T08:11:24Z)
SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control [31.180948030479797]
ヒューマノイド全身制御のためのエンドツーエンド言語-アクションモデルを提案する。我々は,事前訓練された全身制御器を用いて人の動きを追跡することで,大規模なデータセットを構築した。このモデルは言語コマンドと固有入力を直接中間表現なしで低レベルのアクションにマッピングする。
論文参考訳（メタデータ） (2025-11-24T15:48:59Z)
From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文参考訳（メタデータ） (2025-10-16T17:57:47Z)
GenNI: Human-AI Collaboration for Data-Backed Text Generation [102.08127062293111]
Table2Textシステムは、機械学習を利用した構造化データに基づいてテキスト出力を生成する。 GenNI (Generation Negotiation Interface) は、対話型ビジュアルシステムである。
論文参考訳（メタデータ） (2021-10-19T18:07:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。