論文の概要: Humanoid Locomotion as Next Token Prediction
- arxiv url: http://arxiv.org/abs/2402.19469v1
- Date: Thu, 29 Feb 2024 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:46.342412
- Title: Humanoid Locomotion as Next Token Prediction
- Title(参考訳): 次点予測としてのヒューマノイド移動
- Authors: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran,
Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
- Abstract要約: 我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
- 参考スコア(独自算出の注目度): 84.21335675130021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.
- Abstract(参考訳): 実世界のヒューマノイド制御を次のトークン予測問題として、言語における次の単語の予測に例えた。
我々のモデルは 自己回帰予測で訓練された 因果トランスフォーマです
データのマルチモーダル性を考慮して、モダリティアライメントによる予測を行い、各入力トークンに対して、次のトークンを同じモダリティから予測する。
この一般的な定式化により、アクションのないビデオトラジェクトリのような、欠落したモダリティを持つデータを活用することができる。
我々は、従来のニューラルネットワークポリシ、モデルベースのコントローラ、モーションキャプチャデータ、人間のYouTubeビデオから来るシミュレーションされた軌道の集合に基づいて、モデルをトレーニングする。
我々のモデルでは、フルサイズのヒューマノイドがサンフランシスコをゼロショットで歩くことができる。
私たちのモデルは、わずか27時間のウォーキングデータでトレーニングしても現実世界に転送でき、後方に歩くようなトレーニング中に見えないコマンドに一般化することができます。
これらの結果は, 感覚運動路生成モデルによる実世界制御課題の学習への有望な道筋を示唆する。
関連論文リスト
- Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。
提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文 参考訳(メタデータ) (2024-11-04T23:15:21Z) - VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。
提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。
実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文 参考訳(メタデータ) (2024-07-17T06:39:52Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。
提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - InCrowdFormer: On-Ground Pedestrian World Model From Egocentric Views [28.54213112712818]
我々は,地上の歩行者が地上の観衆のまわりを移動する様子を予測できる,地上の歩行者世界モデルを紹介した。
InCrowdFormerは、歩行者のインタラクションをモデル化してTransformerアーキテクチャを完全に活用し、注目を集めてトップダウンのビュー変換に重点を置いている。
我々は、歩行者の位置の後方分布を予測するために、未知の歩行者の高さから生じる不確実性を潜時符号で符号化する。
論文 参考訳(メタデータ) (2023-03-16T17:51:02Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。