Fugu-MT 論文翻訳(概要): Humanoid Locomotion as Next Token Prediction

論文の概要: Humanoid Locomotion as Next Token Prediction

arxiv url: http://arxiv.org/abs/2402.19469v1
Date: Thu, 29 Feb 2024 18:57:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-01 13:14:46.342412
Title: Humanoid Locomotion as Next Token Prediction
Title（参考訳）: 次点予測としてのヒューマノイド移動
Authors: Ilija Radosavovic, Bike Zhang, Baifeng Shi, Jathushan Rajasegaran, Sarthak Kamat, Trevor Darrell, Koushil Sreenath, Jitendra Malik
Abstract要約: 我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
参考スコア（独自算出の注目度）: 84.21335675130021
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We cast real-world humanoid control as a next token prediction problem, akin to predicting the next word in language. Our model is a causal transformer trained via autoregressive prediction of sensorimotor trajectories. To account for the multi-modal nature of the data, we perform prediction in a modality-aligned way, and for each input token predict the next token from the same modality. This general formulation enables us to leverage data with missing modalities, like video trajectories without actions. We train our model on a collection of simulated trajectories coming from prior neural network policies, model-based controllers, motion capture data, and YouTube videos of humans. We show that our model enables a full-sized humanoid to walk in San Francisco zero-shot. Our model can transfer to the real world even when trained on only 27 hours of walking data, and can generalize to commands not seen during training like walking backward. These findings suggest a promising path toward learning challenging real-world control tasks by generative modeling of sensorimotor trajectories.
Abstract（参考訳）: 実世界のヒューマノイド制御を次のトークン予測問題として、言語における次の単語の予測に例えた。我々のモデルは自己回帰予測で訓練された因果トランスフォーマですデータのマルチモーダル性を考慮して、モダリティアライメントによる予測を行い、各入力トークンに対して、次のトークンを同じモダリティから予測する。この一般的な定式化により、アクションのないビデオトラジェクトリのような、欠落したモダリティを持つデータを活用することができる。我々は、従来のニューラルネットワークポリシ、モデルベースのコントローラ、モーションキャプチャデータ、人間のYouTubeビデオから来るシミュレーションされた軌道の集合に基づいて、モデルをトレーニングする。我々のモデルでは、フルサイズのヒューマノイドがサンフランシスコをゼロショットで歩くことができる。私たちのモデルは、わずか27時間のウォーキングデータでトレーニングしても現実世界に転送でき、後方に歩くようなトレーニング中に見えないコマンドに一般化することができます。これらの結果は, 感覚運動路生成モデルによる実世界制御課題の学習への有望な道筋を示唆する。

関連論文リスト

Autoregressive Flow Matching for Motion Prediction [14.914156964274897]
自己回帰フローマッチング(ARFM)は逐次連続データの確率論的モデリングのための新しい手法である。本研究では,人間とロボットの動作を予測する動作予測モデルの能力を評価するためのベンチマークを開発する。我々のモデルは複雑な動作を予測することができ、予測された将来のトラック上での条件付きロボットの動作予測と人間の動作予測が下流タスク性能を大幅に改善できることを実証する。
論文参考訳（メタデータ） (2025-12-27T19:35:45Z)
Deep learning framework for action prediction reveals multi-timescale locomotor control [41.985053522482545]
我々は,行動予測のためのディープラーニングベースのフレームワークを開発した。フレキシブルな入力履歴を持つニューラルネットワークアーキテクチャは、GRUやTransformerといったタイムスケールが全体的なパフォーマンスに優れています。
論文参考訳（メタデータ） (2025-03-20T16:57:15Z)
Multi-Transmotion: Pre-trained Model for Human Motion Prediction [68.87010221355223]
マルチトランスモーション(Multi-Transmotion)は、モダリティ事前トレーニング用に設計された革新的なトランスフォーマーベースのモデルである。提案手法は,下流タスクにおける各種データセット間の競合性能を示す。
論文参考訳（メタデータ） (2024-11-04T23:15:21Z)
VisionTrap: Vision-Augmented Trajectory Prediction Guided by Textual Descriptions [10.748597086208145]
本研究では,サラウンドビューカメラからの視覚入力を取り入れた新しい手法を提案する。提案手法は,53msのレイテンシを実現し,リアルタイム処理を実現する。実験の結果,視覚入力とテキスト記述の両方が軌跡予測性能の向上に寄与していることがわかった。
論文参考訳（メタデータ） (2024-07-17T06:39:52Z)
Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文参考訳（メタデータ） (2024-04-17T16:56:31Z)
Social-Transmotion: Promptable Human Trajectory Prediction [65.80068316170613]
Social-Transmotionは、多種多様な視覚的手がかりを利用して人間の行動を予測する、汎用トランスフォーマーベースのモデルである。提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。
論文参考訳（メタデータ） (2023-12-26T18:56:49Z)
Robot Learning with Sensorimotor Pre-training [98.7755895548928]
ロボット工学のための自己教師型感覚運動器事前学習手法を提案する。我々のモデルはRTTと呼ばれ、センサモレータトークンのシーケンスで動作するトランスフォーマーである。感覚運動の事前学習は、ゼロからトレーニングを一貫して上回り、優れたスケーリング特性を持ち、さまざまなタスク、環境、ロボット間での移動を可能にしている。
論文参考訳（メタデータ） (2023-06-16T17:58:10Z)
InCrowdFormer: On-Ground Pedestrian World Model From Egocentric Views [28.54213112712818]
我々は,地上の歩行者が地上の観衆のまわりを移動する様子を予測できる,地上の歩行者世界モデルを紹介した。 InCrowdFormerは、歩行者のインタラクションをモデル化してTransformerアーキテクチャを完全に活用し、注目を集めてトップダウンのビュー変換に重点を置いている。我々は、歩行者の位置の後方分布を予測するために、未知の歩行者の高さから生じる不確実性を潜時符号で符号化する。
論文参考訳（メタデータ） (2023-03-16T17:51:02Z)
Stochastic Trajectory Prediction via Motion Indeterminacy Diffusion [88.45326906116165]
運動不確定性拡散(MID)の逆過程として軌道予測タスクを定式化する新しい枠組みを提案する。我々は,履歴行動情報と社会的相互作用を状態埋め込みとしてエンコードし,トランジトリの時間的依存性を捉えるためにトランスフォーマーに基づく拡散モデルを考案する。スタンフォード・ドローンやETH/UCYデータセットなど,人間の軌道予測ベンチマーク実験により,本手法の優位性を実証した。
論文参考訳（メタデータ） (2022-03-25T16:59:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。