論文の概要: SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control
- arxiv url: http://arxiv.org/abs/2511.19236v1
- Date: Mon, 24 Nov 2025 15:48:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:25.283681
- Title: SENTINEL: A Fully End-to-End Language-Action Model for Humanoid Whole Body Control
- Title(参考訳): SENTINEL:Humanoid Whole Body Controlのための完全なエンドツーエンド言語-アクションモデル
- Authors: Yuxuan Wang, Haobin Jiang, Shiqing Yao, Ziluo Ding, Zongqing Lu,
- Abstract要約: ヒューマノイド全身制御のためのエンドツーエンド言語-アクションモデルを提案する。
我々は,事前訓練された全身制御器を用いて人の動きを追跡することで,大規模なデータセットを構築した。
このモデルは言語コマンドと固有入力を直接中間表現なしで低レベルのアクションにマッピングする。
- 参考スコア(独自算出の注目度): 31.180948030479797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing humanoid control systems often rely on teleoperation or modular generation pipelines that separate language understanding from physical execution. However, the former is entirely human-driven, and the latter lacks tight alignment between language commands and physical behaviors. In this paper, we present SENTINEL, a fully end-to-end language-action model for humanoid whole-body control. We construct a large-scale dataset by tracking human motions in simulation using a pretrained whole body controller, combined with their text annotations. The model directly maps language commands and proprioceptive inputs to low-level actions without any intermediate representation. The model generates action chunks using flow matching, which can be subsequently refined by a residual action head for real-world deployment. Our method exhibits strong semantic understanding and stable execution on humanoid robots in both simulation and real-world deployment, and also supports multi-modal extensions by converting inputs into texts.
- Abstract(参考訳): 既存のヒューマノイド制御システムは、物理的実行から言語理解を分離する遠隔操作やモジュール生成パイプラインに依存していることが多い。
しかしながら、前者は完全に人間駆動であり、後者は言語コマンドと物理的な振る舞いの密接な一致を欠いている。
本稿では,ヒューマノイド全身制御のためのエンドツーエンド言語アクションモデルであるSENTINELを提案する。
本研究では,事前訓練された本体コントローラとテキストアノテーションを組み合わせることで,人の動きをシミュレーションで追跡し,大規模データセットを構築する。
このモデルは言語コマンドと固有入力を直接中間表現なしで低レベルのアクションにマッピングする。
このモデルはフローマッチングを使用してアクションチャンクを生成し、その後、実際のデプロイメントのために残留アクションヘッドによって洗練される。
本手法は,シミュレーションと実世界展開の両方において,ヒューマノイドロボットに対して強い意味理解と安定した実行を示し,入力をテキストに変換することでマルチモーダル拡張をサポートする。
関連論文リスト
- From Language to Locomotion: Retargeting-free Humanoid Control via Motion Latent Guidance [55.31807046722006]
既存の言語誘導型ヒューマノイドパイプラインは面倒で信頼できない。
本稿では,言語を基盤とした動作潜伏者に対してヒューマノイドポリシーを規定する言語フリーフレームワークであるRoboGhostを紹介する。
我々は,RoboGhostがデプロイメントの遅延を大幅に低減し,成功率と精度を向上し,スムーズでセマンティックに整合したヒューマノイドを生成することを示す。
論文 参考訳(メタデータ) (2025-10-16T17:57:47Z) - Interpretable Robot Control via Structured Behavior Trees and Large Language Models [0.14990005092937678]
本稿では,自然言語理解とロボット実行を橋渡しする新しい枠組みを提案する。
提案手法は実世界のシナリオでは実用的であり、平均的な認識と実行の精度は約94%である。
論文 参考訳(メタデータ) (2025-08-13T08:53:13Z) - LANGTRAJ: Diffusion Model and Dataset for Language-Conditioned Trajectory Simulation [102.1527101235251]
LangTrajは、トラフィックシナリオにおけるすべてのエージェントの共同動作をシミュレートする、言語条件のシーン拡散モデルである。
自然言語入力を条件付けすることで、LangTrajはインタラクティブな振る舞いを柔軟かつ直感的に制御できる。
LangTraj氏は、リアリズム、言語制御性、言語条件の安全クリティカルなシミュレーションにおいて、強力なパフォーマンスを示している。
論文 参考訳(メタデータ) (2025-04-15T17:14:06Z) - PaLM-E: An Embodied Multimodal Language Model [101.29116156731762]
本研究では,実世界の連続型センサを言語モデルに組み込むための具体的言語モデルを提案する。
我々は、複数の具体的タスクのために、事前訓練された大規模言語モデルとともに、これらのエンコーディングをエンドツーエンドにトレーニングする。
562Bパラメータを持つ大モデル PaLM-E-562B は、OK-VQA 上での最先端性能を持つ視覚言語ジェネラリストである。
論文 参考訳(メタデータ) (2023-03-06T18:58:06Z) - Instruction-Following Agents with Multimodal Transformer [95.70039658112873]
本稿では,視覚環境下での指示追従課題をロボットが解くための,シンプルで効果的なモデルを提案する。
本手法は,視覚観察と言語指示を符号化したマルチモーダルトランスフォーマーからなる。
この統一型トランスモデルは, シングルタスクとマルチタスクの両方で, 最先端のトレーニング済みあるいは訓練済みのスクラッチ手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:46:47Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Reshaping Robot Trajectories Using Natural Language Commands: A Study of
Multi-Modal Data Alignment Using Transformers [33.7939079214046]
我々は、人間とロボットのコラボレーションのための柔軟な言語ベースのインタフェースを提供する。
我々は、ユーザコマンドをエンコードする大規模言語モデルの分野における最近の進歩を生かしている。
言語コマンドによって修正されたロボット軌跡を含むデータセット上で、模倣学習を用いてモデルを訓練する。
論文 参考訳(メタデータ) (2022-03-25T01:36:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。