論文の概要: Symmetry-aware Reinforcement Learning for Robotic Assembly under Partial Observability with a Soft Wrist
- arxiv url: http://arxiv.org/abs/2402.18002v2
- Date: Mon, 29 Apr 2024 19:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 19:08:44.487492
- Title: Symmetry-aware Reinforcement Learning for Robotic Assembly under Partial Observability with a Soft Wrist
- Title(参考訳): ソフトリストを用いた部分観測性を考慮したロボット組立のための対称性を考慮した強化学習
- Authors: Hai Nguyen, Tadashi Kozuno, Cristian C. Beltran-Hernandez, Masashi Hamaya,
- Abstract要約: 本研究は,ロボット組立における接触に富むペグ・イン・ホール・タスクの代表的課題に取り組む。
我々は、部分的に観察可能な定式化とデモからの深い強化学習を用いて、メモリベースのエージェントを学習する。
5種類の対称ペグ形状のシミュレーションの結果から,提案するエージェントは状態ベースエージェントに匹敵するか,さらに優れる可能性が示唆された。
- 参考スコア(独自算出の注目度): 11.989941498288392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This study tackles the representative yet challenging contact-rich peg-in-hole task of robotic assembly, using a soft wrist that can operate more safely and tolerate lower-frequency control signals than a rigid one. Previous studies often use a fully observable formulation, requiring external setups or estimators for the peg-to-hole pose. In contrast, we use a partially observable formulation and deep reinforcement learning from demonstrations to learn a memory-based agent that acts purely on haptic and proprioceptive signals. Moreover, previous works do not incorporate potential domain symmetry and thus must search for solutions in a bigger space. Instead, we propose to leverage the symmetry for sample efficiency by augmenting the training data and constructing auxiliary losses to force the agent to adhere to the symmetry. Results in simulation with five different symmetric peg shapes show that our proposed agent can be comparable to or even outperform a state-based agent. In particular, the sample efficiency also allows us to learn directly on the real robot within 3 hours.
- Abstract(参考訳): この研究は、ロボット組み立てにおいて、より安全に動作し、硬いものよりも低周波の制御信号を許容できるソフトな手首を用いて、接触に富んだペグ・イン・ホール作業に挑戦する。
以前の研究では、しばしば完全に観測可能な定式化を使用しており、ペグ・ツー・ホールのポーズに外部設定や推定器を必要とする。
対照的に、我々は、部分的に観察可能な定式化と、デモから深い強化学習を用いて、純粋に触覚的および固有受容的信号に作用するメモリベースのエージェントを学習する。
さらに、以前の研究は潜在的な領域対称性を含まないので、より大きな空間における解を探索しなければならない。
代わりに、トレーニングデータを増強し、補助的損失を構築し、エージェントに対称性を守らせることで、サンプル効率に対称性を活用することを提案する。
5種類の対称ペグ形状のシミュレーションの結果から,提案するエージェントは状態ベースエージェントに匹敵するか,さらに優れる可能性が示唆された。
特に、サンプル効率は、3時間以内に実際のロボットを直接学習することを可能にする。
関連論文リスト
- Equivariant Reinforcement Learning under Partial Observability [18.87759041528553]
本稿では,対称性が効果的な学習に有用な帰納的バイアスとなる部分観測可能な領域を同定する。
我々のアクター批判型強化学習エージェントは、過去におけるソリューションを、関連するシナリオで再利用することができる。
論文 参考訳(メタデータ) (2024-08-26T15:07:01Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Learning Variable Impedance Skills from Demonstrations with Passivity Guarantee [13.498124592226734]
本稿では,力覚と運動情報を統合し,可変インピーダンス制御を実現するための学習支援フレームワークを提案する。
タンクを用いた可変インピーダンス制御手法を提案する。
論文 参考訳(メタデータ) (2023-06-20T06:05:04Z) - DiAReL: Reinforcement Learning with Disturbance Awareness for Robust
Sim2Real Policy Transfer in Robot Control [0.0]
遅延マルコフ決定プロセスは、最近コミットされたアクションの有限時間ウィンドウでエージェントの状態空間を拡大することでマルコフ特性を満たす。
本稿では,遅延した環境下での乱れ増進型マルコフ決定プロセスを導入し,政治強化学習アルゴリズムのトレーニングにおける乱れ推定を取り入れた新しい表現法を提案する。
論文 参考訳(メタデータ) (2023-06-15T10:11:38Z) - Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation [1.7901837062462316]
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
論文 参考訳(メタデータ) (2023-04-12T11:38:01Z) - Active Predicting Coding: Brain-Inspired Reinforcement Learning for
Sparse Reward Robotic Control Problems [79.07468367923619]
ニューラルジェネレーティブ・コーディング(NGC)の神経認知計算フレームワークによるロボット制御へのバックプロパゲーションフリーアプローチを提案する。
我々は、スパース報酬から動的オンライン学習を容易にする強力な予測符号化/処理回路から完全に構築されたエージェントを設計する。
提案するActPCエージェントは,スパース(外部)報酬信号に対して良好に動作し,複数の強力なバックプロップベースのRLアプローチと競合し,性能が優れていることを示す。
論文 参考訳(メタデータ) (2022-09-19T16:49:32Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Adaptive t-Momentum-based Optimization for Unknown Ratio of Outliers in
Amateur Data in Imitation Learning [3.145455301228175]
行動学(BC)は、人間のスキルをロボットに安全かつ直接移譲する可能性が高い。
不完全な実演から模倣者が効果的に学習できるようにするため,ロバストなtモーメント最適化アルゴリズムを提案する。
このアルゴリズムが、未知の重みを持つデータセットに対して、堅牢なBC模倣子を生成するためにどのように使用できるかを実証的に示す。
論文 参考訳(メタデータ) (2021-08-02T04:30:41Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Online Body Schema Adaptation through Cost-Sensitive Active Learning [63.84207660737483]
この作業は、icubロボットシミュレータの7dofアームを使用して、シミュレーション環境で実行された。
コストに敏感な能動学習手法は最適な関節構成を選択するために用いられる。
その結果,コスト依存型能動学習は標準的な能動学習手法と同等の精度を示し,実行運動の約半分を減らした。
論文 参考訳(メタデータ) (2021-01-26T16:01:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。