論文の概要: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
- arxiv url: http://arxiv.org/abs/2409.20537v1
- Date: Mon, 30 Sep 2024 17:39:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-02 02:20:11.655837
- Title: Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers
- Title(参考訳): 不均質な事前学習型変圧器による受動視覚学習のスケーリング
- Authors: Lirui Wang, Xinlei Chen, Jialiang Zhao, Kaiming He,
- Abstract要約: 本稿では、政策ニューラルネットワークのトランクを事前訓練してタスクを学習し、共有表現を具体化する異種事前学習トランスフォーマー(HPT)を提案する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、未確認タスクで20%以上の微調整されたポリシー性能を向上させる。
- 参考スコア(独自算出の注目度): 41.069074375686164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: One of the roadblocks for training generalist robotic models today is heterogeneity. Previous robot learning methods often collect data to train with one specific embodiment for one task, which is expensive and prone to overfitting. This work studies the problem of learning policy representations through heterogeneous pre-training on robot data across different embodiments and tasks at scale. We propose Heterogeneous Pre-trained Transformers (HPT), which pre-train a large, shareable trunk of a policy neural network to learn a task and embodiment agnostic shared representation. This general architecture aligns the specific proprioception and vision inputs from distinct embodiments to a short sequence of tokens and then processes such tokens to map to control robots for different tasks. Leveraging the recent large-scale multi-embodiment real-world robotic datasets as well as simulation, deployed robots, and human video datasets, we investigate pre-training policies across heterogeneity. We conduct experiments to investigate the scaling behaviors of training objectives, to the extent of 52 datasets. HPTs outperform several baselines and enhance the fine-tuned policy performance by over 20% on unseen tasks in multiple simulator benchmarks and real-world settings. See the project website (https://liruiw.github.io/hpt/) for code and videos.
- Abstract(参考訳): 今日、一般的なロボットモデルを訓練するための障害の1つは異質性である。
従来のロボット学習手法では、1つのタスクに対して1つの特定の実施形態でトレーニングを行うためにデータを集めることが多かった。
本研究は,異種事前学習による政策表現の学習課題について検討する。
本稿では,多元性事前学習型トランスフォーマ(HPT)を提案する。このトランスフォーマは,政策ニューラルネットワークの大規模で共有可能なトランクを事前学習し,タスクを学習し,未知の共有表現を具現化する。
この一般的なアーキテクチャは、異なる実施形態からの特定の受容と視覚入力を短いトークン列に整列させ、その後、異なるタスクのためにロボットを制御するためにそのようなトークンをマップするために処理する。
近年の大規模マルチエンボディメント実世界のロボットデータセット、シミュレーション、デプロイされたロボット、人間のビデオデータセットを活用し、異種間における事前学習ポリシーを調査する。
52データセットの範囲で,トレーニング対象のスケーリング行動を調べる実験を行った。
HPTはいくつかのベースラインを上回り、複数のシミュレータベンチマークと実世界の設定において、目に見えないタスクで20%以上の微調整されたポリシー性能を向上させる。
コードとビデオのプロジェクトWebサイト(https://liruiw.github.io/hpt/)を参照してください。
関連論文リスト
- Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance [66.51390591688802]
バリューガイド型ポリシーステアリング(V-GPS)は、ポリシーの重みを微調整したり、アクセスしたりすることなく、幅広い種類のジェネラリストポリシーと互換性がある。
同じ値関数は、異なるアーキテクチャで5つの最先端ポリシーの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:46:26Z) - Scaling Cross-Embodied Learning: One Policy for Manipulation, Navigation, Locomotion and Aviation [49.03165169369552]
さまざまな種類のロボットにまたがって単一のポリシーを訓練することによって、ロボット学習はより広範囲で多様なデータセットを活用することができる。
そこで我々はCrossFormerを提案する。CrossFormerはスケーラブルでフレキシブルなトランスフォーマーベースのポリシーで、どんな実施形態からでもデータを消費できる。
我々は、同じネットワークウェイトがシングルアームとデュアルアームの操作システム、車輪付きロボット、クワッドコプター、四足歩行など、非常に異なるロボットを制御できることを実証した。
論文 参考訳(メタデータ) (2024-08-21T17:57:51Z) - EquiBot: SIM(3)-Equivariant Diffusion Policy for Generalizable and Data Efficient Learning [36.0274770291531]
本研究では,ロボット操作タスク学習のための頑健で,データ効率が高く,汎用的なアプローチであるEquibotを提案する。
提案手法は,SIM(3)等価なニューラルネットワークアーキテクチャと拡散モデルを組み合わせたものである。
本手法は,5分間の人間による実演から学ぶことで,新しい物体やシーンに容易に一般化できることが示唆された。
論文 参考訳(メタデータ) (2024-07-01T17:09:43Z) - PoCo: Policy Composition from and for Heterogeneous Robot Learning [44.1315170137613]
現在のメソッドは通常、1つのポリシーをトレーニングするために、1つのドメインからすべてのデータを収集し、プールします。
多様なモダリティやドメインにまたがる情報を組み合わせるための,ポリシ・コンポジションと呼ばれる柔軟なアプローチを提案する。
提案手法はタスクレベルの構成をマルチタスク操作に使用することができ,分析コスト関数を用いて推論時のポリシー動作を適応させることができる。
論文 参考訳(メタデータ) (2024-02-04T14:51:49Z) - Robot Fine-Tuning Made Easy: Pre-Training Rewards and Policies for
Autonomous Real-World Reinforcement Learning [58.3994826169858]
ロボット強化学習のためのリセット不要な微調整システムであるRoboFuMEを紹介する。
我々の洞察は、オフラインの強化学習技術を利用して、事前訓練されたポリシーの効率的なオンライン微調整を確保することである。
提案手法では,既存のロボットデータセットからのデータを組み込んで,目標タスクを3時間以内の自律現実体験で改善することができる。
論文 参考訳(メタデータ) (2023-10-23T17:50:08Z) - Imitating Task and Motion Planning with Visuomotor Transformers [71.41938181838124]
タスク・アンド・モーション・プランニング(TAMP)は、多様なデモンストレーションの大規模なデータセットを自律的に生成できる。
本研究では,TAMPスーパーバイザが生成する大規模データセットと,それらに適合するフレキシブルトランスフォーマーモデルの組み合わせが,ロボット操作の強力なパラダイムであることを示す。
我々は,TAMPエージェントを模倣して大規模ビジュモータトランスフォーマーポリシーを訓練する OPTIMUS という新しい模倣学習システムを提案する。
論文 参考訳(メタデータ) (2023-05-25T17:58:14Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Learn Fast, Segment Well: Fast Object Segmentation Learning on the iCub
Robot [20.813028212068424]
我々は、新しいオブジェクトや異なるドメインの存在下で、オブジェクトセグメンテーションモデルに適応できる様々な技術について研究する。
データをストリーム化するロボットアプリケーションのための高速なインスタンスセグメンテーション学習のためのパイプラインを提案する。
提案したパイプラインを2つのデータセットでベンチマークし、実際のロボットであるiCubヒューマノイドにデプロイする。
論文 参考訳(メタデータ) (2022-06-27T17:14:04Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。