論文の概要: Autoregressive Action Sequence Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2410.03132v1
- Date: Sat, 12 Oct 2024 02:51:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 03:36:45.955760
- Title: Autoregressive Action Sequence Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための自己回帰行動系列学習
- Authors: Xinyu Zhang, Yuhan Liu, Haonan Chang, Liam Schramm, Abdeslam Boularias,
- Abstract要約: ロボット操作タスクのためのシンプルなが効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
- 参考スコア(独自算出の注目度): 32.9580007141312
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Autoregressive models have demonstrated remarkable success in natural language processing. In this work, we design a simple yet effective autoregressive architecture for robotic manipulation tasks. We propose the Chunking Causal Transformer (CCT), which extends the next-single-token prediction of causal transformers to support multi-token prediction in a single pass. Further, we design a novel attention interleaving strategy that allows CCT to be trained efficiently with teacher-forcing. Based on CCT, we propose the Autoregressive Policy (ARP) model, which learns to generate action sequences autoregressively. We find that action sequence learning enables better leverage of the underlying causal relationships in robotic tasks. We evaluate ARP across diverse robotic manipulation environments, including Push-T, ALOHA, and RLBench, and show that it outperforms the state-of-the-art methods in all tested environments, while being more efficient in computation and parameter sizes. Video demonstrations, our source code, and the models of ARP can be found at http://github.com/mlzxy/arp.
- Abstract(参考訳): 自己回帰モデルは自然言語処理において顕著な成功を収めた。
本研究では,ロボット操作タスクのための簡易かつ効果的な自己回帰型アーキテクチャを設計する。
本稿では,CCT(Chunking Causal Transformer)を提案する。
さらに,教師の力でCCTを効果的に訓練できる新しい注意インターリーブ戦略を設計する。
CCTに基づく自己回帰政策(ARP)モデルを提案し,自己回帰的に行動列を生成することを学習する。
動作シーケンス学習は,ロボット作業における因果関係をよりよく活用できることがわかった。
我々は、Push-T、ALOHA、RLBenchを含む多様なロボット操作環境におけるARPを評価し、計算やパラメータサイズにおいてより効率的でありながら、すべてのテスト環境で最先端の手法よりも優れていることを示す。
ビデオデモ、ソースコード、およびARPのモデルについては、http://github.com/mlzxy/arp.orgで見ることができる。
関連論文リスト
- FAST: Efficient Action Tokenization for Vision-Language-Action Models [98.15494168962563]
離散コサイン変換に基づくロボット動作のための圧縮に基づく新しいトークン化手法を提案する。
FASTをベースとしたFAST+は,100万個のリアルロボットアクショントラジェクトリに基づいて訓練されたユニバーサルロボットアクショントークンである。
論文 参考訳(メタデータ) (2025-01-16T18:57:04Z) - Coarse-to-fine Q-Network with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,新しい値に基づく強化学習アルゴリズムであるCQN-AS(Coarse-to-fine Q-Network with Action Sequence)を紹介する。
我々は,53のロボットタスクに対して,疎密かつ高密度な報酬と実演と無実の報酬を用いたアルゴリズムを検討した。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - PIVOT-R: Primitive-Driven Waypoint-Aware World Model for Robotic Manipulation [68.17081518640934]
ロボット操作のためのPrIrmitive-driVen waypOinT-aware world model(PIVOT-R)を提案する。
PIVOT-RはWAWM(Waypoint-aware World Model)と軽量アクション予測モジュールで構成される。
私たちのPIVOT-RはSeaWaveベンチマークで最先端のオープンソースモデルより優れており、4段階の命令タスクで平均19.45%の相対的な改善を実現しています。
論文 参考訳(メタデータ) (2024-10-14T11:30:18Z) - ReKep: Spatio-Temporal Reasoning of Relational Keypoint Constraints for Robotic Manipulation [31.211870350260703]
キーポイント制約(キーポイント制約、英: Keypoint Constraints)は、ロボット操作における制約を視覚的に表現した表現である。
ReKepはPython関数として表現され、環境の3Dキーポイントのセットを数値的なコストにマッピングする。
車輪付きシングルアームプラットフォームと静止式デュアルアームプラットフォーム上でのシステム実装について述べる。
論文 参考訳(メタデータ) (2024-09-03T06:45:22Z) - SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation [62.58480650443393]
Segment Anything (SAM) は、一般化可能なシーン理解とシーケンス模倣のための視覚境界モデルである。
我々は,単一パスにおけるアクションシーケンスの予測を可能にする,新しいマルチチャネルヒートマップを開発した。
論文 参考訳(メタデータ) (2024-05-30T00:32:51Z) - RoboScript: Code Generation for Free-Form Manipulation Tasks across Real
and Simulation [77.41969287400977]
本稿では,コード生成を利用したデプロイ可能なロボット操作パイプラインのためのプラットフォームである textbfRobotScript を提案する。
自由形自然言語におけるロボット操作タスクのためのコード生成ベンチマークも提案する。
我々は,Franka と UR5 のロボットアームを含む,複数のロボットエボディメントにまたがるコード生成フレームワークの適応性を実証した。
論文 参考訳(メタデータ) (2024-02-22T15:12:00Z) - PACT: Perception-Action Causal Transformer for Autoregressive Robotics
Pre-Training [25.50131893785007]
本研究は,ロボットにおける複数のタスクの出発点として機能する汎用表現を事前学習するためのパラダイムを導入する。
本稿では,ロボットデータから直接表現を自己管理的に構築することを目的として,PACT(Perception-Action Causal Transformer)を提案する。
より大規模な事前学習モデル上に小さなタスク特化ネットワークを微調整すると、同時に1つのモデルをスクラッチからトレーニングするのに比べ、性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2022-09-22T16:20:17Z) - Deep Imitation Learning for Bimanual Robotic Manipulation [70.56142804957187]
本稿では,ロボットによるバイマニュアル操作のための深層模倣学習フレームワークを提案する。
中心となる課題は、操作スキルを異なる場所にあるオブジェクトに一般化することである。
i)マルチモーダルダイナミクスを要素運動プリミティブに分解し、(ii)リカレントグラフニューラルネットワークを用いて各プリミティブをパラメータ化して相互作用を捕捉し、(iii)プリミティブを逐次的に構成する高レベルプランナと、プリミティブダイナミクスと逆運動学制御を組み合わせた低レベルコントローラを統合することを提案する。
論文 参考訳(メタデータ) (2020-10-11T01:40:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。