論文の概要: BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2406.10093v2
- Date: Wed, 4 Sep 2024 08:20:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:31:44.658190
- Title: BiKC: Keypose-Conditioned Consistency Policy for Bimanual Robotic Manipulation
- Title(参考訳): BiKC:双方向ロボットマニピュレーションのためのキープレイスコンディション整合性ポリシー
- Authors: Dongjie Yu, Hang Xu, Yizhou Chen, Yi Ren, Jia Pan,
- Abstract要約: 両面操作に適したキーポーズ条件の整合性ポリシーを導入する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
- 参考スコア(独自算出の注目度): 48.08416841005715
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Bimanual manipulation tasks typically involve multiple stages which require efficient interactions between two arms, posing step-wise and stage-wise challenges for imitation learning systems. Specifically, failure and delay of one step will broadcast through time, hinder success and efficiency of each sub-stage task, and thereby overall task performance. Although recent works have made strides in addressing certain challenges, few approaches explicitly consider the multi-stage nature of bimanual tasks while simultaneously emphasizing the importance of inference speed. In this paper, we introduce a novel keypose-conditioned consistency policy tailored for bimanual manipulation. It is a hierarchical imitation learning framework that consists of a high-level keypose predictor and a low-level trajectory generator. The predicted keyposes provide guidance for trajectory generation and also mark the completion of one sub-stage task. The trajectory generator is designed as a consistency model trained from scratch without distillation, which generates action sequences conditioning on current observations and predicted keyposes with fast inference speed. Simulated and real-world experimental results demonstrate that the proposed approach surpasses baseline methods in terms of success rate and operational efficiency. Codes are available at https://github.com/ManUtdMoon/BiKC.
- Abstract(参考訳): 双方向操作タスクは通常、2つのアーム間の効率的な相互作用を必要とする複数のステージを伴い、模倣学習システムにおいてステップワイドおよびステージワイドの課題を提起する。
具体的には、ひとつのステップの失敗と遅延が時間の経過とともにブロードキャストされ、各サブステージタスクの成功と効率が妨げられ、結果として全体のタスクパフォーマンスが損なわれる。
近年の研究では、特定の課題に対処する努力が続けられているが、推論速度の重要性を同時に強調しながら、双対タスクの多段階的な性質を明示的に考慮するアプローチはほとんどない。
本稿では,バイマニュアル操作に適したキーポーズ条件の整合性ポリシーを提案する。
階層的な模倣学習フレームワークであり、ハイレベルなキープレース予測器と低レベルな軌道生成器から構成される。
予測キーは、軌道生成のためのガイダンスを提供するとともに、1つのサブステージタスクの完了を示す。
トラジェクトリジェネレータは、蒸留なしでスクラッチから訓練された一貫性モデルとして設計され、現在の観測と予測キーポジションを高速な推論速度で条件付けしたアクションシーケンスを生成する。
シミュレーションおよび実世界の実験結果から,提案手法は成功率と運用効率の点で基準法を超越していることが示された。
コードはhttps://github.com/ManUtdMoon/BiKC.comで入手できる。
関連論文リスト
- Reinforcement Learning with Action Sequence for Data-Efficient Robot Learning [62.3886343725955]
本稿では,行動列上のQ値を出力する批判ネットワークを学習する新しいRLアルゴリズムを提案する。
提案アルゴリズムは,現在および将来の一連の行動の実行結果を学習するために値関数を明示的に訓練することにより,ノイズのある軌道から有用な値関数を学習することができる。
論文 参考訳(メタデータ) (2024-11-19T01:23:52Z) - Single-Shot Learning of Stable Dynamical Systems for Long-Horizon Manipulation Tasks [48.54757719504994]
本稿では,必要なトレーニングデータ量を削減しつつ,タスク成功率の向上に焦点をあてる。
提案手法では,長距離実証をウェイポイントとサブゴールで定義された離散ステップに分割する手法を提案する。
シミュレーションと実世界の両方の実験を通して,本手法を検証し,シミュレーションから物理ロボットプラットフォームへの効果的移行を実証した。
論文 参考訳(メタデータ) (2024-10-01T19:49:56Z) - Affordance-based Robot Manipulation with Flow Matching [6.863932324631107]
本フレームワークは,ロボット操作のためのフローマッチングにより,手頃なモデル学習とトラジェクトリ生成を統一する。
評価の結果,提案手法は,言語プロンサによる手軽さを学習し,競争性能を向上することがわかった。
本フレームワークは,ロボット操作のためのフローマッチングにより,相性モデル学習と軌道生成をシームレスに統合する。
論文 参考訳(メタデータ) (2024-09-02T09:11:28Z) - PRISE: LLM-Style Sequence Compression for Learning Temporal Action Abstractions in Control [55.81022882408587]
時間的行動抽象化は、信念状態表現とともに、シーケンシャルな意思決定のための強力な知識共有メカニズムである。
本稿では,時間的動作の抽象化をシーケンス圧縮問題として扱う新しい視点を提案する。
本稿では,連続的なアクション量子化とバイトペア符号化を組み合わせて,強力なアクション抽象化を学習するアプローチを提案する。
論文 参考訳(メタデータ) (2024-02-16T04:55:09Z) - Leveraging Sequentiality in Reinforcement Learning from a Single
Demonstration [68.94506047556412]
本稿では,複雑なロボットタスクの制御ポリシーを1つの実演で学習するために,シーケンシャルなバイアスを活用することを提案する。
本研究は, ヒューマノイド移動やスタンドアップなど, 模擬課題のいくつかを, 前例のないサンプル効率で解くことができることを示す。
論文 参考訳(メタデータ) (2022-11-09T10:28:40Z) - Task Phasing: Automated Curriculum Learning from Demonstrations [46.1680279122598]
報酬ドメインを疎結合にするために強化学習を適用することは、ガイド信号が不十分なため、非常に難しい。
本稿では,実演を用いてカリキュラムのシーケンスを自動的に生成する手法を提案する。
3つのスパース報酬領域に対する実験結果から,我々のタスク・ファスリング・アプローチは,パフォーマンスに関して最先端のアプローチよりも優れていることが示された。
論文 参考訳(メタデータ) (2022-10-20T03:59:11Z) - Fine-grained Temporal Contrastive Learning for Weakly-supervised
Temporal Action Localization [87.47977407022492]
本稿では,シーケンス・ツー・シーケンスの区別を文脈的に比較することで学習が,弱い教師付き行動の局所化に不可欠な帰納的バイアスをもたらすことを論じる。
微分可能な動的プログラミングの定式化の下では、FSD(Fen-fine Sequence Distance)とLCS(Longest Common Subsequence)の2つの相補的コントラストが設計されている。
提案手法は,2つのベンチマークにおいて最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-03-31T05:13:50Z) - Bi-Granularity Contrastive Learning for Post-Training in Few-Shot Scene [10.822477939237459]
トークンレベルとシーケンスレベルの両方のコントラスト学習を統合するために,ポストトレーニングのためのコントラストマスク言語モデリング(CMLM)を提案する。
CMLMは、データ拡張を必要とせずに、数ショット設定で、最近のいくつかのポストトレーニングメソッドを超越している。
論文 参考訳(メタデータ) (2021-06-04T08:17:48Z) - Lifelong Learning Without a Task Oracle [13.331659934508764]
監視されたディープニューラルネットワークは、新しいタスクが学習されると、古いタスクの精度が大幅に低下することが知られている。
本稿では,メモリオーバーヘッドの少ないタスク割り当てマップの提案と比較を行う。
最高のパフォーマンスの変種は、平均的なパラメータメモリの増大を1.7%に抑えるだけである。
論文 参考訳(メタデータ) (2020-11-09T21:30:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。