論文の概要: Sample-Efficient Reinforcement Learning with Symmetry-Guided Demonstrations for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2304.06055v2
- Date: Fri, 19 Sep 2025 23:36:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:15.546614
- Title: Sample-Efficient Reinforcement Learning with Symmetry-Guided Demonstrations for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための対称性ガイドによるサンプル高能率強化学習
- Authors: Amir M. Soufi Enayati, Zengjie Zhang, Kashish Gupta, Homayoun Najjaran,
- Abstract要約: 強化学習(RL)は、特に高次元連続状態-作用空間において、サンプル効率の低下に悩まされる。
デモとRL生成の両方を格納するデュアルバッファアーキテクチャを用いた新しいトレーニングフレームワークであるDemo-EASEを紹介する。
その結果,Demo-EASEは標準のRLベースラインに比べてコンバージェンスを著しく加速し,最終性能を向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.099237102357281
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning (RL) suffers from low sample efficiency, particularly in high-dimensional continuous state-action spaces of complex robotic manipulation tasks. RL performance can improve by leveraging prior knowledge, even when demonstrations are limited and collected from simplified environments. To address this, we define General Abstract Symmetry (GAS) for aggregating demonstrations from symmetrical abstract partitions of the robot environment. We introduce Demo-EASE, a novel training framework using a dual-buffer architecture that stores both demonstrations and RL-generated experiences. Demo-EASE improves sample efficiency through symmetry-guided demonstrations and behavior cloning, enabling strong initialization and balanced exploration-exploitation. Demo-EASE is compatible with both on-policy and off-policy RL algorithms, supporting various training regimes. We evaluate our framework in three simulation experiments using a Kinova Gen3 robot with joint-space control within PyBullet. Our results show that Demo-EASE significantly accelerates convergence and improves final performance compared to standard RL baselines, demonstrating its potential for efficient real-world robotic manipulation learning.
- Abstract(参考訳): 強化学習(Reinforcement Learning, RL)は、特に複雑なロボット操作タスクの高次元連続状態行動空間において、サンプル効率の低下に悩まされる。
RLのパフォーマンスは、デモが制限され、単純化された環境から収集されたとしても、事前の知識を活用することで改善できる。
これを解決するために,ロボット環境の対称的抽象的パーティションからデモを集約するためのGAS(General Abstract Symmetry)を定義した。
デモとRL生成の両方を格納するデュアルバッファアーキテクチャを用いた新しいトレーニングフレームワークであるDemo-EASEを紹介する。
Demo-EASEは、対称性誘導されたデモと行動クローニングによってサンプル効率を改善し、強力な初期化と平衡探索-探索を可能にする。
Demo-EASEは、オン・ポリティクスとオフ・ポリティクスのRLアルゴリズムの両方と互換性があり、様々なトレーニング体制をサポートしている。
我々は,PyBullet内の共同空間制御を備えたKinova Gen3ロボットを用いた3つのシミュレーション実験において,本フレームワークの評価を行った。
以上の結果から,Demo-EASEは標準RLベースラインに比べてコンバージェンスを著しく加速し,最終性能を向上させることが示され,実世界のロボット操作学習の可能性が示された。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Understanding Physical Effects for Effective Tool-use [91.55810923916454]
本稿では,最小の協力力で効果的なツール利用戦略を創出するロボット学習計画フレームワークを提案する。
FEM(Finite Element Method)をベースとしたシミュレータを用いて,観測ツール使用時の細粒度,連続的な視覚的,身体的効果を再現する。
シミュレーションでは,提案手法が2つのタスクで観測されたものとは大きく異なる,より効果的なツール利用戦略を実現できることを示す。
論文 参考訳(メタデータ) (2022-06-30T03:13:38Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Motion Generation Using Bilateral Control-Based Imitation Learning with
Autoregressive Learning [3.4410212782758047]
本稿では,二元的制御に基づく模倣学習のための自己回帰学習法を提案する。
自己回帰学習を実装するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-11-12T04:35:48Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。