論文の概要: VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2407.04152v1
- Date: Thu, 4 Jul 2024 20:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-08 15:00:44.293489
- Title: VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation
- Title(参考訳): VoxAct-B:Voxel-based Acting and Stabilizing Policy for bimanual Manipulation
- Authors: I-Chun Arthur Liu, Sicheng He, Daniel Seita, Gaurav Sukhatme,
- Abstract要約: 本稿では,VoxAct-Bを提案する。
我々はこのボクセルグリッドをバイマニュアル操作ポリシーに提供し、動作と安定化の動作を学ぶ。
シミュレーションにおいて、VoxAct-Bは、細粒度バイマニュアル操作タスクにおいて、強いベースラインを上回ります。
- 参考スコア(独自算出の注目度): 3.208603707050157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual manipulation is critical to many robotics applications. In contrast to single-arm manipulation, bimanual manipulation tasks are challenging due to higher-dimensional action spaces. Prior works leverage large amounts of data and primitive actions to address this problem, but may suffer from sample inefficiency and limited generalization across various tasks. To this end, we propose VoxAct-B, a language-conditioned, voxel-based method that leverages Vision Language Models (VLMs) to prioritize key regions within the scene and reconstruct a voxel grid. We provide this voxel grid to our bimanual manipulation policy to learn acting and stabilizing actions. This approach enables more efficient policy learning from voxels and is generalizable to different tasks. In simulation, we show that VoxAct-B outperforms strong baselines on fine-grained bimanual manipulation tasks. Furthermore, we demonstrate VoxAct-B on real-world $\texttt{Open Drawer}$ and $\texttt{Open Jar}$ tasks using two UR5s. Code, data, and videos will be available at https://voxact-b.github.io.
- Abstract(参考訳): 双対操作は多くのロボティクス応用において重要である。
シングルアーム操作とは対照的に、高次元のアクション空間のため、双方向操作タスクは困難である。
先行研究は、この問題に対処するために大量のデータと原始的なアクションを利用するが、サンプルの非効率性と様々なタスクにわたる限定的な一般化に悩まされる可能性がある。
この目的のために,視覚言語モデル(VLM)を利用した言語条件付きボクセルベース手法であるVoxAct-Bを提案する。
我々はこのボクセルグリッドをバイマニュアル操作ポリシーに提供し、動作と安定化の動作を学ぶ。
このアプローチは、ボクセルからのより効率的なポリシー学習を可能にし、異なるタスクに一般化することができる。
シミュレーションにおいて、VoxAct-Bは、細粒度バイマニュアル操作タスクにおいて、強いベースラインを上回ります。
さらに、現実世界の$\texttt{Open Drawer}$と$\texttt{Open Jar}$タスクで2つのUR5を使ってVoxAct-Bを実証する。
コード、データ、ビデオはhttps://voxact-b.github.io.comで入手できる。
関連論文リスト
- Local Policies Enable Zero-shot Long-horizon Manipulation [80.1161776000682]
ManipGenを紹介します。これはsim2real転送のための新しいポリシーのクラスであるローカルポリシーを活用します。
ManipGenは、SayCan、OpenVLA、LLMTrajGen、VoxPoserといったSOTAアプローチを、50の現実世界操作タスクで36%、76%、62%、60%で上回っている。
論文 参考訳(メタデータ) (2024-10-29T17:59:55Z) - Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。
人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。
我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文 参考訳(メタデータ) (2024-09-12T17:59:07Z) - LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
我々はLLaRA: Large Language and Robotics Assistantを紹介した。
まず、既存の行動クローニングデータセットからロボットのための会話スタイルの指導データを生成する自動パイプラインを提案する。
このようなデータセットを限定的に微調整したVLMは、ロボット制御において有意義な行動決定を導出できることを示す。
論文 参考訳(メタデータ) (2024-06-28T17:59:12Z) - Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。
Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文 参考訳(メタデータ) (2024-06-27T06:12:01Z) - OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。
OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。
モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文 参考訳(メタデータ) (2024-06-13T15:46:55Z) - Spatial-Language Attention Policies for Efficient Robot Learning [32.215861214516735]
本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。
SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。
一つのモデルで8つのタスクにまたがる実世界の80%の成功率を示し、未確認な乱雑なオブジェクト構成を導入した場合、47.5%の成功率を示す。
論文 参考訳(メタデータ) (2023-04-21T20:02:49Z) - PLEX: Making the Most of the Available Data for Robotic Manipulation
Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。
特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文 参考訳(メタデータ) (2023-03-15T17:31:37Z) - Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。
PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。
以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-09-12T17:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。