論文の概要: Humanoid Locomotion as Next Token Prediction
- arxiv url: http://arxiv.org/abs/2402.19469v1
- Date: Thu, 29 Feb 2024 18:57:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 13:14:46.342412
- Title: Humanoid Locomotion as Next Token Prediction
- Title(参考訳): 次点予測としてのヒューマノイド移動
- Authors: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran,
Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
- Abstract要約: 我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
- 参考スコア(独自算出の注目度): 84.21335675130021
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We cast real-world humanoid control as a next token prediction problem, akin
to predicting the next word in language. Our model is a causal transformer
trained via autoregressive prediction of sensorimotor trajectories. To account
for the multi-modal nature of the data, we perform prediction in a
modality-aligned way, and for each input token predict the next token from the
same modality. This general formulation enables us to leverage data with
missing modalities, like video trajectories without actions. We train our model
on a collection of simulated trajectories coming from prior neural network
policies, model-based controllers, motion capture data, and YouTube videos of
humans. We show that our model enables a full-sized humanoid to walk in San
Francisco zero-shot. Our model can transfer to the real world even when trained
on only 27 hours of walking data, and can generalize to commands not seen
during training like walking backward. These findings suggest a promising path
toward learning challenging real-world control tasks by generative modeling of
sensorimotor trajectories.
- Abstract(参考訳): 実世界のヒューマノイド制御を次のトークン予測問題として、言語における次の単語の予測に例えた。
我々のモデルは 自己回帰予測で訓練された 因果トランスフォーマです
データのマルチモーダル性を考慮して、モダリティアライメントによる予測を行い、各入力トークンに対して、次のトークンを同じモダリティから予測する。
この一般的な定式化により、アクションのないビデオトラジェクトリのような、欠落したモダリティを持つデータを活用することができる。
我々は、従来のニューラルネットワークポリシ、モデルベースのコントローラ、モーションキャプチャデータ、人間のYouTubeビデオから来るシミュレーションされた軌道の集合に基づいて、モデルをトレーニングする。
我々のモデルでは、フルサイズのヒューマノイドがサンフランシスコをゼロショットで歩くことができる。
私たちのモデルは、わずか27時間のウォーキングデータでトレーニングしても現実世界に転送でき、後方に歩くようなトレーニング中に見えないコマンドに一般化することができます。
これらの結果は, 感覚運動路生成モデルによる実世界制御課題の学習への有望な道筋を示唆する。
関連論文リスト
- Any-point Trajectory Modeling for Policy Learning [67.45990463611942]
我々は、ビデオフレーム内の任意の点の将来の軌跡を予測するために、ATM(Any-point Trajectory Modeling)を導入する。
ATMは、強力なビデオ事前トレーニングベースラインを平均80%上回っている。
本研究では,人間の動画やビデオからの操作スキルを,異なるロボット形態から効果的に伝達する学習方法を示す。
論文 参考訳(メタデータ) (2023-12-28T23:34:43Z) - Social-Transmotion: Promptable Human Trajectory Prediction [70.59399670794171]
ソーシャルトランスモーション(Social-Transmotion)は、トランスフォーマーのパワーを利用して、多種多様な視覚的手がかりを扱う汎用モデルである。
提案手法は,JTA,JRDB,道路交通の歩行者・自転車,ETH-UCYなど,複数のデータセットで検証されている。
論文 参考訳(メタデータ) (2023-12-26T18:56:49Z) - TransFusion: A Practical and Effective Transformer-based Diffusion Model
for 3D Human Motion Prediction [1.8923948104852863]
本研究では,3次元動作予測のための革新的で実用的な拡散モデルであるTransFusionを提案する。
我々のモデルは、浅い層と深い層の間の長いスキップ接続を持つバックボーンとしてTransformerを活用している。
クロスアテンションや適応層正規化のような余分なモジュールを利用する従来の拡散モデルとは対照的に、条件を含む全ての入力をトークンとして扱い、より軽量なモデルを作成する。
論文 参考訳(メタデータ) (2023-07-30T01:52:07Z) - Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。
我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。
感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文 参考訳(メタデータ) (2023-06-16T17:58:10Z) - InCrowdFormer: On-Ground Pedestrian World Model From Egocentric Views [28.54213112712818]
我々は,地上の歩行者が地上の観衆のまわりを移動する様子を予測できる,地上の歩行者世界モデルを紹介した。
InCrowdFormerは、歩行者のインタラクションをモデル化してTransformerアーキテクチャを完全に活用し、注目を集めてトップダウンのビュー変換に重点を置いている。
我々は、歩行者の位置の後方分布を予測するために、未知の歩行者の高さから生じる不確実性を潜時符号で符号化する。
論文 参考訳(メタデータ) (2023-03-16T17:51:02Z) - TrafficBots: Towards World Models for Autonomous Driving Simulation and
Motion Prediction [149.5716746789134]
我々は,データ駆動型交通シミュレーションを世界モデルとして定式化できることを示した。
動作予測とエンドツーエンドの運転に基づくマルチエージェントポリシーであるTrafficBotsを紹介する。
オープンモーションデータセットの実験は、TrafficBotsが現実的なマルチエージェント動作をシミュレートできることを示している。
論文 参考訳(メタデータ) (2023-03-07T18:28:41Z) - Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。
我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。
スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文 参考訳(メタデータ) (2022-03-25T16:59:08Z) - 3D Human motion anticipation and classification [8.069283749930594]
人間の動き予測と特徴学習のための新しいシーケンス・トゥ・シークエンスモデルを提案する。
我々のモデルは、同じ入力シーケンスから複数の人間のポーズの将来のシーケンスを予測することを学習する。
識別器から学習した特徴を用いて,行動認識ネットワークを訓練するには,エポック数の半分以下しかかからないことを示す。
論文 参考訳(メタデータ) (2020-12-31T00:19:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。