論文の概要: AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation
- arxiv url: http://arxiv.org/abs/2412.06779v1
- Date: Mon, 09 Dec 2024 18:58:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:37.594515
- Title: AnyBimanual: Transferring Unimanual Policy for General Bimanual Manipulation
- Title(参考訳): AnyBimanual: 汎用的双方向操作のための一元的ポリシーの移行
- Authors: Guanxing Lu, Tengbo Yu, Haoyuan Deng, Season Si Chen, Yansong Tang, Ziwei Wang,
- Abstract要約: 本稿では,AnyBimanualというプラグイン・アンド・プレイ方式を提案する。
我々は、AnyBimanualが12のシミュレートされたタスクに対して、従来の方法よりも12.67%改善したことを示す。
- 参考スコア(独自算出の注目度): 15.44403761987512
- License:
- Abstract: Performing general language-conditioned bimanual manipulation tasks is of great importance for many applications ranging from household service to industrial assembly. However, collecting bimanual manipulation data is expensive due to the high-dimensional action space, which poses challenges for conventional methods to handle general bimanual manipulation tasks. In contrast, unimanual policy has recently demonstrated impressive generalizability across a wide range of tasks because of scaled model parameters and training data, which can provide sharable manipulation knowledge for bimanual systems. To this end, we propose a plug-and-play method named AnyBimanual, which transfers pre-trained unimanual policy to general bimanual manipulation policy with few bimanual demonstrations. Specifically, we first introduce a skill manager to dynamically schedule the skill representations discovered from pre-trained unimanual policy for bimanual manipulation tasks, which linearly combines skill primitives with task-oriented compensation to represent the bimanual manipulation instruction. To mitigate the observation discrepancy between unimanual and bimanual systems, we present a visual aligner to generate soft masks for visual embedding of the workspace, which aims to align visual input of unimanual policy model for each arm with those during pretraining stage. AnyBimanual shows superiority on 12 simulated tasks from RLBench2 with a sizable 12.67% improvement in success rate over previous methods. Experiments on 9 real-world tasks further verify its practicality with an average success rate of 84.62%.
- Abstract(参考訳): 一般的な言語条件のバイマニュアル操作タスクを実行することは、家庭サービスから産業組み立てに至るまで、多くのアプリケーションにとって非常に重要である。
しかし,従来の2次元操作処理手法では,高次元の動作空間が問題となるため,バイマニュアル操作データの収集は高価である。
対照的に、一元的政策は最近、スケールしたモデルパラメータとトレーニングデータにより、広範囲のタスクにおいて顕著な一般化可能性を示しており、これはバイマン的システムに対するシャーマブルな操作知識を提供することができる。
そこで本研究では,AnyBimanualというプラグイン・アンド・プレイ方式を提案する。
具体的には、まず、二元的操作タスクのための事前訓練された一元的ポリシーから得られたスキル表現を動的にスケジュールするスキルマネージャを紹介し、それは、スキルプリミティブとタスク指向の補償を線形に組み合わせて、二元的操作命令を表現する。
作業空間を視覚的に埋め込むためのソフトマスクを生成するための視覚整合器を提案し,前訓練段階における各アームに対する一元的ポリシーモデルの視覚的入力を両腕に合わせることを目的とした。
AnyBimanualは、RLBench2の12のシミュレーションタスクに対して、従来の方法よりも12.67%の精度で優れていることを示している。
9つの実世界のタスクの実験は、平均成功率84.62%で実用性をさらに検証している。
関連論文リスト
- PerAct2: Benchmarking and Learning for Robotic Bimanual Manipulation Tasks [32.94163186662167]
両腕間の正確な空間的・時間的調整が要求されるため、両腕の操作は困難である。
本稿では,RLBenchを双方向操作に拡張することで,そのギャップを解消する。
コードとベンチマークをオープンソース化し、13のタスクと23のユニークなタスクのバリエーションで構成されました。
論文 参考訳(メタデータ) (2024-06-29T02:06:01Z) - NaturalVLM: Leveraging Fine-grained Natural Language for
Affordance-Guided Visual Manipulation [21.02437461550044]
多くの実世界のタスクは複雑な多段階推論を必要とする。
15個の異なる操作タスクからなるベンチマークであるNrVLMを導入する。
そこで本研究では,操作タスクをステップバイステップで完了させる新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-13T09:12:16Z) - Multi-task real-robot data with gaze attention for dual-arm fine manipulation [4.717749411286867]
本稿では,2つのアームタスクや細かな操作を必要とするタスクを含む多種多様なオブジェクト操作のデータセットを紹介する。
224k エピソード (150時間, 1,104 言語命令) のデータセットを作成した。
このデータセットには、視覚的注意信号とデュアルアクションラベル、アクションを堅牢な到達軌道とオブジェクトとの正確な相互作用に分離する信号、堅牢で正確なオブジェクト操作を実現するための言語命令が含まれる。
論文 参考訳(メタデータ) (2024-01-15T11:20:34Z) - Self-supervised Optimization of Hand Pose Estimation using Anatomical
Features and Iterative Learning [4.698846136465861]
本稿では,人的相互作用が最小限である特定のユースケースに手振り推定を適用するための自己教師付きパイプラインを提案する。
このパイプラインは、汎用データセットでトレーニングされた手振り推定のための一般的な機械学習モデルで構成されている。
パイプラインの有効性は、手動のアセンブリシナリオにおいて、下流タスクとしてアクティビティ認識をトレーニングすることで実証される。
論文 参考訳(メタデータ) (2023-07-06T14:13:11Z) - Instruction-driven history-aware policies for robotic manipulations [82.25511767738224]
複数の入力を考慮に入れた統一型トランスフォーマー方式を提案する。
特に,我々のトランスフォーマーアーキテクチャは,(i)自然言語命令と(ii)多視点シーン観測を統合している。
RLBenchベンチマークと実世界のロボットを用いて,本手法の評価を行った。
論文 参考訳(メタデータ) (2022-09-11T16:28:25Z) - Learning Action Conditions from Instructional Manuals for Instruction Understanding [48.52663250368341]
本稿では,行動条件推論というタスクを提案し,命令マニュアルにおける行動条件の事前条件と後条件の高品質なアノテートデータセットを収集する。
本稿では,オンライン指導マニュアルから大規模トレーニングインスタンスを自動構築する弱い教師付きアプローチを提案し,人間に注釈を付けて検証したデータセットをキュレートし,現在のNLPモデルが命令テキストの動作条件依存性をいかに推測できるかを検証した。
論文 参考訳(メタデータ) (2022-05-25T00:19:59Z) - ASE: Large-Scale Reusable Adversarial Skill Embeddings for Physically
Simulated Characters [123.88692739360457]
汎用運動技術により、人間は複雑な作業を行うことができる。
これらのスキルは、新しいタスクを学ぶときの振る舞いを導くための強力な先駆者も提供します。
物理シミュレーション文字のための汎用的で再利用可能なスキル埋め込みを学習するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-04T06:13:28Z) - Transfer Learning in Conversational Analysis through Reusing
Preprocessing Data as Supervisors [52.37504333689262]
単一タスク学習におけるノイズの多いラベルの使用は、過度に適合するリスクを増大させる。
補助的なタスクは、同じトレーニング中に一次タスク学習のパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-12-02T08:40:42Z) - Playful Interactions for Representation Learning [82.59215739257104]
本稿では,下流タスクの視覚的表現を学習するために,遊び心のあるインタラクションを自己指導的に利用することを提案する。
19の多様な環境で2時間の遊び心のあるデータを収集し、自己予測学習を用いて視覚的表現を抽出する。
我々の表現は、標準的な行動クローニングよりも一般化され、必要なデモの半数しか必要とせず、同様の性能を達成できる。
論文 参考訳(メタデータ) (2021-07-19T17:54:48Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。