論文の概要: MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control
- arxiv url: http://arxiv.org/abs/2605.26006v2
- Date: Tue, 02 Jun 2026 14:18:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.062823
- Title: MIND: Multi-Scale Intent Diffusion for Text-Driven Physics-Based Humanoid Control
- Title(参考訳): MIND:テキスト駆動物理に基づくヒューマノイド制御のためのマルチスケールインテント拡散
- Authors: Bin Li, Ruichi Zhang, Han Liang, Jingyan Zhang, Juze Zhang, Xin Chen, Jingya Wang,
- Abstract要約: この知見に基づいて、テキスト駆動物理に基づくヒューマノイド制御のための新しいエンドツーエンド拡散フレームワークであるMINDを提案する。
MINDはマルチスケールなインテント拡散機構を導入し、全体論的インテント予測器がグローバルな振る舞いのダイナミクスをキャプチャする。
MINDはテキストコマンドからコヒーレントで、物理的に妥当で、意味的に整合したヒューマノイドの振る舞いを合成する。
- 参考スコア(独自算出の注目度): 28.483898151756733
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Enabling physics-based humanoids to execute diverse behaviors from high-level textual commands remains a significant challenge. Existing methods typically follow either a two-stage paradigm that combines kinematic motion generation with physics-based tracking, or an end-to-end imitation-learning paradigm that directly generates actions from text. However, the former suffers from the inherent domain shift between kinematic generation and physics-based tracking, while the latter struggles with the substantial modality gap between textual commands and low-level actions, limiting effective semantic alignment. Notably, humanoid states encode rich motion dynamics that are more semantically aligned with textual descriptions than low-level actions, making them a natural basis for deriving behavioral intent. Building upon this insight, we propose MIND, a novel end-to-end diffusion framework for text-driven physics-based humanoid control that leverages behavioral intent as a semantic bridge between textual commands and low-level actions. At its core, MIND introduces a multi-scale intent diffusion mechanism, where a holistic intent predictor captures global behavioral dynamics to guide overall behavior synthesis, while an immediate intent predictor provides step-wise, fine-grained signals for local behavior refinement at each diffusion step. This hierarchical intent formulation imposes a structured inductive bias for humanoid control, improving semantic alignment and behavioral naturalness. Furthermore, MIND encodes humanoid states into a latent space to enable more effective semantic intent modeling. Extensive experiments demonstrate that MIND outperforms existing methods and synthesizes coherent, physically plausible, and semantically aligned humanoid behaviors from text commands. Project page: https://binlee26.github.io/MIND_page.
- Abstract(参考訳): 高レベルのテキストコマンドから多様な動作を実行するための物理ベースのヒューマノイドの開発は、依然として大きな課題である。
既存の手法は通常、運動運動生成と物理に基づくトラッキングを組み合わせた2段階のパラダイム、あるいはテキストから直接アクションを生成するエンドツーエンドの模倣学習パラダイムのいずれかに従う。
しかし、前者はキネマティック生成と物理に基づく追跡のドメインシフトに悩まされ、後者はテキストコマンドと低レベルアクションの間の実質的なモダリティギャップに悩まされ、効果的なセマンティックアライメントが制限される。
特にヒューマノイドは、低レベルの行動よりもテキスト記述にセマンティックに整合したリッチな運動力学を符号化し、行動意図を導出するための自然な基礎となっている。
この知見に基づいて,テキストコマンドと低レベル動作のセマンティックブリッジとしての行動意図を活用する,テキスト駆動型物理に基づくヒューマノイド制御のための新しいエンドツーエンド拡散フレームワーク MIND を提案する。
MINDはマルチスケールな意図拡散機構を導入し、全体的意図予測器はグローバルな行動力学を捉え、全体的行動合成を導出する。
この階層的意図の定式化は、ヒューマノイド制御のための構造的帰納バイアスを課し、意味的アライメントと行動的自然性を改善する。
さらに、MINDはヒューマノイド状態を潜在空間にエンコードし、より効果的な意味意図モデリングを可能にする。
大規模な実験により、MINDは既存の手法より優れており、テキストコマンドから一貫性があり、物理的に妥当で、意味的に整合したヒューマノイドの振る舞いを合成する。
プロジェクトページ: https://binlee26.github.io/MIND_page
関連論文リスト
- SCRIPT: Scalable Diffusion Policy with Multi-stage Training for Language-driven Physics-based Humanoid Control [72.5651722107621]
SCRIPTは、言語駆動の物理に基づくヒューマノイド制御のための多段階トレーニングフレームワークを備えたスケーラブルな拡散ポリシーである。
SCRIPTの中核はJAST-DiT(Joint Action-State-Text Diffusion Transformer)であり、アクション、物理状態、テキストを専用トークンストリームとして表現している。
自己回帰制御を安定させるために,近年の密集した文脈を保存し,長期的歴史から疎開したサンプルを抽出する非線形履歴条件付け機構を導入する。
論文 参考訳(メタデータ) (2026-05-21T14:17:21Z) - EgoMotion: Hierarchical Reasoning and Diffusion for Egocentric Vision-Language Motion Generation [74.07852250099559]
Egocentric Vision-Language (Ego-VL) モーション生成について検討する。
本課題は,1対1の視覚的観察と自然言語の指示を併用した3次元人間の動作を合成することである。
この課題に対処するために,階層型生成フレームワーク textbfEgoMotion を提案する。
論文 参考訳(メタデータ) (2026-04-21T05:31:06Z) - Motion-Adapter: A Diffusion Model Adapter for Text-to-Motion Generation of Compound Actions [13.380249866020355]
本稿では,複合動作の生成において,テキスト間拡散モデルを誘導するプラグイン・アンド・プレイ・モジュールを提案する。
本手法は,多種多様なテキストプロンプトにまたがって,より忠実でコヒーレントな複合動作を連続的に生成する。
論文 参考訳(メタデータ) (2026-04-17T15:08:17Z) - Language-Grounded Decoupled Action Representation for Robotic Manipulation [78.42228162226839]
認識と制御を結びつけるために,Language-Grounded Decoupled Action Representation (LaDA) フレームワークを提案する。
LaDAは3つの解釈可能なアクションプリミティブ(翻訳、回転、グリップ制御)の微細な中間層を導入し、低レベルのアクションに対して明示的な意味構造を提供する。
さらに、セマンティックガイダンスによるソフトラベルのコントラスト学習の目的を用いて、類似のアクションプリミティブをタスク間で整列させ、一般化と動きの整合性を高める。
論文 参考訳(メタデータ) (2026-03-13T13:08:26Z) - Beyond Global Alignment: Fine-Grained Motion-Language Retrieval via Pyramidal Shapley-Taylor Learning [56.6025512458557]
動き言語検索は、自然言語と人間の動きの間の意味的ギャップを埋めることを目的としている。
既存のアプローチは主に、全動作シーケンスとグローバルテキスト表現の整合性に重点を置いている。
本研究では,微粒な動き言語検索のためのPST学習フレームワークを提案する。
論文 参考訳(メタデータ) (2026-01-29T16:00:12Z) - Fine-grained text-driven dual-human motion generation via dynamic hierarchical interaction [31.055662466004254]
本研究では,動的階層的相互作用をモデル化するための微細なデュアルヒューマンモーション生成法,すなわちファインダールを提案する。
最初の段階である自己学習段階(Self-Learning Stage)は、二重人間全体のテキストを個々のテキストに分割する。
第2段階である適応調整段階(Adaptive Adjustment Stage)は、相互作用距離予測器によって相互作用距離を予測する。
最後のステージであるTeacher-Guided Refinement Stageは、全体レベルでの動作機能を洗練するためのガイダンスとして、全体的なテキスト機能を利用する。
論文 参考訳(メタデータ) (2025-10-09T14:18:53Z) - MoReact: Generating Reactive Motion from Textual Descriptions [57.642436102978245]
MoReactは拡散に基づく手法で、グローバルな軌跡と局所的な動きを連続的に引き離すように設計されている。
2人の動作データセットから適応したデータを用いて,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2025-09-28T14:31:41Z) - KinMo: Kinematic-aware Human Motion Understanding and Generation [6.962697597686156]
現在のヒューマンモーション合成フレームワークは、グローバルなアクション記述に依存している。
ランのような単一の粗い記述は、速度の変動、手足の位置決め、運動力学といった詳細を捉えるのに失敗する。
階層的な記述可能な動作表現に基づいて構築された統合フレームワークであるKinMoを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:50:11Z) - Act As You Wish: Fine-Grained Control of Motion Diffusion Model with
Hierarchical Semantic Graphs [31.244039305932287]
動き生成のきめ細かい制御のための階層的意味グラフを提案する。
動作記述を階層的なセマンティックグラフに分解し,3段階の動作,行動,具体性を含む。
提案手法は, コミュニティに多大な影響を及ぼす可能性のある, 生成した動きを連続的に改善することができる。
論文 参考訳(メタデータ) (2023-11-02T06:20:23Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。