論文の概要: VertiFormer: A Data-Efficient Multi-Task Transformer for Off-Road Robot Mobility
- arxiv url: http://arxiv.org/abs/2502.00543v1
- Date: Sat, 01 Feb 2025 20:21:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 15:01:03.596001
- Title: VertiFormer: A Data-Efficient Multi-Task Transformer for Off-Road Robot Mobility
- Title(参考訳): VertiFormer: オフロードロボットモビリティのためのデータ効率の良いマルチタスクトランス
- Authors: Mohammad Nazeri, Anuj Pokhrel, Alexandyr Card, Aniket Datar, Garrett Warnell, Xuesu Xiao,
- Abstract要約: VertiFormerは、たった1時間のデータでトレーニングされた、新しいデータ効率のマルチタスクトランスフォーマーモデルである。
我々の実験は、限られたデータでオフロードロボットの移動にトランスフォーマーを効果的に活用するための洞察を提供する。
- 参考スコア(独自算出の注目度): 49.512339092493384
- License:
- Abstract: Sophisticated learning architectures, e.g., Transformers, present a unique opportunity for robots to understand complex vehicle-terrain kinodynamic interactions for off-road mobility. While internet-scale data are available for Natural Language Processing (NLP) and Computer Vision (CV) tasks to train Transformers, real-world mobility data are difficult to acquire with physical robots navigating off-road terrain. Furthermore, training techniques specifically designed to process text and image data in NLP and CV may not apply to robot mobility. In this paper, we propose VertiFormer, a novel data-efficient multi-task Transformer model trained with only one hour of data to address such challenges of applying Transformer architectures for robot mobility on extremely rugged, vertically challenging, off-road terrain. Specifically, VertiFormer employs a new learnable masked modeling and next token prediction paradigm to predict the next pose, action, and terrain patch to enable a variety of off-road mobility tasks simultaneously, e.g., forward and inverse kinodynamics modeling. The non-autoregressive design mitigates computational bottlenecks and error propagation associated with autoregressive models. VertiFormer's unified modality representation also enhances learning of diverse temporal mappings and state representations, which, combined with multiple objective functions, further improves model generalization. Our experiments offer insights into effectively utilizing Transformers for off-road robot mobility with limited data and demonstrate our efficiently trained Transformer can facilitate multiple off-road mobility tasks onboard a physical mobile robot.
- Abstract(参考訳): 高度な学習アーキテクチャ、例えばトランスフォーマーは、オフロードモビリティのための複雑な車両とテランのキノダイナミクスの相互作用を理解するためのユニークな機会を提供する。
自然言語処理(NLP)とコンピュータビジョン(CV)のタスクでトランスフォーマーのトレーニングにインターネットスケールのデータが利用できるが、実際の移動データはオフロード地形を走行する物理ロボットでは取得が困難である。
さらに、NLPやCVでテキストや画像を処理するために特別に設計されたトレーニング技術は、ロボットの移動には適用できないかもしれない。
本稿では,ロボットモビリティのためのトランスフォーマーアーキテクチャを,極端に頑丈で垂直に困難なオフロード地形に適用するという課題に対処するために,わずか1時間のデータで訓練された新しいデータ効率のマルチタスクトランスフォーマーモデルであるVertiFormerを提案する。
具体的には、VertiFormerは新しい学習可能なマスク付きモデリングと次のトークン予測パラダイムを使用して、次のポーズ、アクション、地形パッチを予測し、さまざまなオフロードモビリティタスク、例えばフォワードと逆キノダイナミックスモデリングを可能にする。
非自己回帰設計は、自己回帰モデルに関連する計算ボトルネックとエラー伝播を緩和する。
VertiFormerの統一モダリティ表現はまた、多様な時間的マッピングと状態表現の学習を強化し、複数の目的関数と組み合わせることで、モデル一般化をさらに改善する。
我々の実験は、限られたデータでオフロードロボットの移動にトランスフォーマーを効果的に活用するための洞察を提供し、効率的にトレーニングされたトランスフォーマーが物理的な移動ロボット上で複数のオフロード移動作業を容易にすることを実証する。
関連論文リスト
- SKT: Integrating State-Aware Keypoint Trajectories with Vision-Language Models for Robotic Garment Manipulation [82.61572106180705]
本稿では、視覚言語モデル(VLM)を用いて、様々な衣服カテゴリーにおけるキーポイント予測を改善する統一的なアプローチを提案する。
我々は、高度なシミュレーション技術を用いて大規模な合成データセットを作成し、大規模な実世界のデータを必要としないスケーラブルなトレーニングを可能にした。
実験結果から, VLM法はキーポイント検出精度とタスク成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2024-09-26T17:26:16Z) - Guided Decoding for Robot On-line Motion Generation and Adaption [44.959409835754634]
本稿では,ロボットアームに高い自由度を持つ新たな動作生成手法を提案する。
本研究では,実演として使用する擬似軌道の大規模データセットに基づいて,条件付き変分オートエンコーダに基づくトランスフォーマーアーキテクチャを訓練する。
本モデルでは, 異なる初期点と目標点からの運動をうまく生成し, 異なるロボットプラットフォームを横断する複雑なタスクをナビゲートする軌道を生成可能であることを示す。
論文 参考訳(メタデータ) (2024-03-22T14:32:27Z) - AutoRT: Embodied Foundation Models for Large Scale Orchestration of Robotic Agents [109.3804962220498]
AutoRTは、人間の監督を最小限に抑えて、完全に見えないシナリオで運用ロボットの展開をスケールアップするシステムである。
われわれはAutoRTが複数の建物にまたがる20以上のロボットに指示を提示し、遠隔操作と自律ロボットポリシーを通じて77万個の実ロボットエピソードを収集するデモを行った。
実験により,AutoRTが収集した「未使用データ」は極めて多種多様であり,AutoRTのLLMを使用することで,人間の好みに合わせることができるデータ収集ロボットの指示が可能であることを実証した。
論文 参考訳(メタデータ) (2024-01-23T18:45:54Z) - Prompt a Robot to Walk with Large Language Models [18.214609570837403]
巨大な言語モデル(LLM)は、大規模なインターネットスケールのデータで事前訓練されている。
物理的環境から収集した数発のプロンプトを使用する新しいパラダイムを導入する。
様々なロボットと環境をまたいだ実験により、我々の手法がロボットに歩行を効果的に促すことが検証された。
論文 参考訳(メタデータ) (2023-09-18T17:50:17Z) - RT-1: Robotics Transformer for Real-World Control at Scale [98.09428483862165]
我々は,有望なスケーラブルなモデル特性を示す,ロボティクストランスフォーマーと呼ばれるモデルクラスを提示する。
実世界の課題を遂行する実ロボットの大規模データ収集に基づいて,様々なモデルクラスと,データサイズ,モデルサイズ,データの多様性の関数として一般化する能力について検証した。
論文 参考訳(メタデータ) (2022-12-13T18:55:15Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Bayesian Meta-Learning for Few-Shot Policy Adaptation Across Robotic
Platforms [60.59764170868101]
強化学習手法は、重要な性能を達成できるが、同じロボットプラットフォームで収集される大量のトレーニングデータを必要とする。
私たちはそれを、さまざまなロボットプラットフォームで共有される共通の構造を捉えるモデルを見つけることを目標とする、数ショットのメタラーニング問題として定式化します。
我々は,400個のロボットを用いて,実ロボットピッキング作業とシミュレーションリーチの枠組みを実験的に評価した。
論文 参考訳(メタデータ) (2021-03-05T14:16:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。