Fugu-MT 論文翻訳(概要): VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

論文の概要: VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation

arxiv url: http://arxiv.org/abs/2407.04152v2
Date: Sun, 6 Oct 2024 01:13:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-08 23:57:53.459525
Title: VoxAct-B: Voxel-Based Acting and Stabilizing Policy for Bimanual Manipulation
Title（参考訳）: VoxAct-B:Voxel-based Acting and Stabilizing Policy for bimanual Manipulation
Authors: I-Chun Arthur Liu, Sicheng He, Daniel Seita, Gaurav Sukhatme,
Abstract要約: 本稿では,VoxAct-Bを提案する。我々はこのボクセルグリッドをバイマニュアル操作ポリシーに提供し、動作と安定化の動作を学ぶ。シミュレーションにおいて、VoxAct-Bは、細粒度バイマニュアル操作タスクにおいて、強いベースラインを上回ります。
参考スコア（独自算出の注目度）: 3.208603707050157
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Bimanual manipulation is critical to many robotics applications. In contrast to single-arm manipulation, bimanual manipulation tasks are challenging due to higher-dimensional action spaces. Prior works leverage large amounts of data and primitive actions to address this problem, but may suffer from sample inefficiency and limited generalization across various tasks. To this end, we propose VoxAct-B, a language-conditioned, voxel-based method that leverages Vision Language Models (VLMs) to prioritize key regions within the scene and reconstruct a voxel grid. We provide this voxel grid to our bimanual manipulation policy to learn acting and stabilizing actions. This approach enables more efficient policy learning from voxels and is generalizable to different tasks. In simulation, we show that VoxAct-B outperforms strong baselines on fine-grained bimanual manipulation tasks. Furthermore, we demonstrate VoxAct-B on real-world $\texttt{Open Drawer}$ and $\texttt{Open Jar}$ tasks using two UR5s. Code, data, and videos are available at https://voxact-b.github.io.
Abstract（参考訳）: 双対操作は多くのロボティクス応用において重要である。シングルアーム操作とは対照的に、高次元のアクション空間のため、双方向操作タスクは困難である。先行研究は、この問題に対処するために大量のデータと原始的なアクションを利用するが、サンプルの非効率性と様々なタスクにわたる限定的な一般化に悩まされる可能性がある。この目的のために,視覚言語モデル(VLM)を利用した言語条件付きボクセルベース手法であるVoxAct-Bを提案する。我々はこのボクセルグリッドをバイマニュアル操作ポリシーに提供し、動作と安定化の動作を学ぶ。このアプローチは、ボクセルからのより効率的なポリシー学習を可能にし、異なるタスクに一般化することができる。シミュレーションにおいて、VoxAct-Bは、細粒度バイマニュアル操作タスクにおいて、強いベースラインを上回ります。さらに、現実世界の$\texttt{Open Drawer}$と$\texttt{Open Jar}$タスクで2つのUR5を使ってVoxAct-Bを実証する。コード、データ、ビデオはhttps://voxact-b.github.io.comで公開されている。

関連論文リスト

villa-X: Enhancing Latent Action Modeling in Vision-Language-Action Models [31.640256268451168]
VLA(Vision-Language-Latent-Action)モデルは、ロボット操作ポリシーを学ぶための一般的なパラダイムとして登場した。最近の研究は、2つのフレーム間の動きの抽象的な表現である潜伏行動のVLA事前学習への組み入れを探求し始めている。一般化可能なロボット操作ポリシーを学習するための潜在アクションモデリングを進化させる新しいフレームワークであるVilla-Xを紹介する。
論文参考訳（メタデータ） (2025-07-31T15:57:46Z)
Efficient Alignment of Unconditioned Action Prior for Language-conditioned Pick and Place in Clutter [59.69563889773648]
本研究では,ロボットが対象物を開き散らかし,特定の場所に移動させるという,言語条件のピック・アンド・プレイス作業について検討する。いくつかのアプローチは、ビジョンファウンデーションモデルから機能を使ってエンドツーエンドのポリシーを学び、大きなデータセットを必要とする。本研究では,無条件動作先行と3次元視覚言語先行とを1つの注意層から学習することで協調する行動先行アライメント手法を提案する。
論文参考訳（メタデータ） (2025-03-12T14:20:33Z)
Fine-Tuning Vision-Language-Action Models: Optimizing Speed and Success [100.226572152954]
視覚言語アクションモデル(VLA)のための最適化された微調整レシピを提案する。われわれのレシピはOpenVLAの4つのタスクスイートの平均成功率を76.5%から97.1%に引き上げ、アクション生成のスループットを26$times$に向上させた。実世界の評価において、我々の微調整のレシピにより、OpenVLAはバイマガルALOHAロボット上でデクスタラスで高周波な制御タスクをうまく実行することができる。
論文参考訳（メタデータ） (2025-02-27T00:30:29Z)
Local Policies Enable Zero-shot Long-horizon Manipulation [80.1161776000682]
ManipGenを紹介します。これはsim2real転送のための新しいポリシーのクラスであるローカルポリシーを活用します。 ManipGenは、SayCan、OpenVLA、LLMTrajGen、VoxPoserといったSOTAアプローチを、50の現実世界操作タスクで36%、76%、62%、60%で上回っている。
論文参考訳（メタデータ） (2024-10-29T17:59:55Z)
Affordance-Centric Policy Learning: Sample Efficient and Generalisable Robot Policy Learning using Affordance-Centric Task Frames [15.800100875117312]
改善はロボット操作の中心であり、ほとんどのタスクは、オブジェクト上のタスク固有の領域とのインタラクションに単純化することができる。そこで本稿では,これらの空き領域におけるテキストのテキスト化を適切に行う,空き領域中心のポリシー学習手法を提案する。提案手法は,10個の実演から305個の実演で訓練された画像ベースのポリシーに準じて,行動クローンを用いて操作タスクを学習できることを実証する。
論文参考訳（メタデータ） (2024-10-15T23:57:35Z)
Hand-Object Interaction Pretraining from Videos [77.92637809322231]
我々は,3次元ハンドオブジェクトインタラクショントラジェクトリから,一般的なロボット操作を学習する。人間の手と操作された物体を3D空間で共有し、人間の動きをロボットの動きと共有する。我々は、このポリシーを、強化学習(RL)と行動クローニング(BC)の両方で微調整することで、下流タスクへのサンプル効率の適応を可能にし、従来のアプローチと比較して堅牢性と一般化性を同時に改善できることを実証的に実証した。
論文参考訳（メタデータ） (2024-09-12T17:59:07Z)
LLaRA: Supercharging Robot Learning Data for Vision-Language Policy [56.505551117094534]
視覚言語モデル(VLM)は、状態情報を視覚的テキストのプロンプトとして処理し、テキスト内のポリシー決定に応答することができる。 LLaRA:Large Language and Robotics Assistantは,ロボットの行動ポリシーを会話として定式化するフレームワークである。
論文参考訳（メタデータ） (2024-06-28T17:59:12Z)
Manipulate-Anything: Automating Real-World Robots using Vision-Language Models [47.16659229389889]
実世界のロボット操作のためのスケーラブルな自動生成手法であるManipulate-Anythingを提案する。 Manipulate-Anythingは、特権のある状態情報や手書きのスキルなしで現実世界の環境で動作でき、静的オブジェクトを操作できる。
論文参考訳（メタデータ） (2024-06-27T06:12:01Z)
OpenVLA: An Open-Source Vision-Language-Action Model [131.74098076670103]
我々は、970kの現実世界のロボットデモの多様なコレクションに基づいて訓練されたオープンソースのVLAであるOpenVLAを紹介した。 OpenVLAは汎用的な操作の強力な結果を示し、RT-2-X (55B) のようなクローズドモデルよりも16.5%高い絶対的なタスク成功率を示した。モデルチェックポイント、微調整ノートブック、そしてOpen X-Embodimentデータセット上で大規模にVLAをトレーニングするためのビルトインサポートを備えたPyTorchをリリースしています。
論文参考訳（メタデータ） (2024-06-13T15:46:55Z)
Spatial-Language Attention Policies for Efficient Robot Learning [32.215861214516735]
本稿では,空間言語アテンションポリシー(SLAP)を解法として提案する。 SLAPは入力表現として3次元トークンを使用し、単一のマルチタスク、言語条件のアクション予測ポリシーをトレーニングする。一つのモデルで8つのタスクにまたがる実世界の80%の成功率を示し、未確認な乱雑なオブジェクト構成を導入した場合、47.5%の成功率を示す。
論文参考訳（メタデータ） (2023-04-21T20:02:49Z)
PLEX: Making the Most of the Available Data for Robotic Manipulation Pretraining [28.504762473732296]
本稿では,タスク非依存のビジュモータトラジェクトリから学習するトランスフォーマーに基づくアーキテクチャを提案する。特に、コンプレックスのトランスフォーマーにおける相対的な位置エンコーディングを使用することは、人間が編集したデモから学習する低データ体制において大いに役立ちます。
論文参考訳（メタデータ） (2023-03-15T17:31:37Z)
Perceiver-Actor: A Multi-Task Transformer for Robotic Manipulation [52.94101901600948]
マルチタスク6-DoF操作のための言語条件付き行動閉鎖エージェントPerActを開発した。 PerActはPerceiver Transformerを用いて言語目標とRGB-Dボクセル観測を符号化し、"次の最良のボクセル動作を検出する"ことで識別された動作を出力する。以上の結果から,PerActは多様なテーブルトップタスクにおいて,非構造化イメージ・ツー・アクション・エージェントと3D ConvNetベースラインを著しく上回っていることがわかった。
論文参考訳（メタデータ） (2022-09-12T17:51:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。