論文の概要: Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2304.06055v1
- Date: Wed, 12 Apr 2023 11:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-14 16:48:15.646806
- Title: Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのオフライン強化学習における爆発的対称性とヒューリスティックな実証
- Authors: Amir M. Soufi Enayati, Zengjie Zhang, Kashish Gupta, and Homayoun
Najjaran
- Abstract要約: 本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
- 参考スコア(独自算出の注目度): 1.7901837062462316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning demonstrates significant potential in automatically
building control policies in numerous domains, but shows low efficiency when
applied to robot manipulation tasks due to the curse of dimensionality. To
facilitate the learning of such tasks, prior knowledge or heuristics that
incorporate inherent simplification can effectively improve the learning
performance. This paper aims to define and incorporate the natural symmetry
present in physical robotic environments. Then, sample-efficient policies are
trained by exploiting the expert demonstrations in symmetrical environments
through an amalgamation of reinforcement and behavior cloning, which gives the
off-policy learning process a diverse yet compact initiation. Furthermore, it
presents a rigorous framework for a recent concept and explores its scope for
robot manipulation tasks. The proposed method is validated via two
point-to-point reaching tasks of an industrial arm, with and without an
obstacle, in a simulation experiment study. A PID controller, which tracks the
linear joint-space trajectories with hard-coded temporal logic to produce
interim midpoints, is used to generate demonstrations in the study. The results
of the study present the effect of the number of demonstrations and quantify
the magnitude of behavior cloning to exemplify the possible improvement of
model-free reinforcement learning in common manipulation tasks. A comparison
study between the proposed method and a traditional off-policy reinforcement
learning algorithm indicates its advantage in learning performance and
potential value for applications.
- Abstract(参考訳): 強化学習は多くの領域で制御ポリシーを自動構築する上で大きな可能性を示すが、次元の呪いによるロボット操作タスクに適用した場合の効率は低い。
このようなタスクの学習を容易にするため、本質的な単純化を含む事前知識やヒューリスティックスは、学習性能を効果的に向上させることができる。
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
次に、サンプル効率のよいポリシーを、強化と振る舞いのクローニングの融合によって対称的な環境で専門家のデモンストレーションを活用し、オフポリシー学習プロセスを多様かつコンパクトな開始にすることで訓練する。
さらに,最近の概念に対する厳格な枠組みを提示し,ロボット操作タスクのスコープを探究する。
シミュレーション実験において,提案手法は,障害物の有無に関わらず,産業用アームの2つのポイント・ツー・ポイント到達タスクによって検証される。
中間中間点を生成するためにハードコード時間論理を用いた線形結合空間軌跡の追跡を行うPIDコントローラを用いて,本研究の実証を行う。
本研究の結果は, 一般的な操作作業におけるモデルフリー強化学習の改善を実証するために, 実演回数の影響と行動クローニングの規模を定量化するものである。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の利点を示している。
関連論文リスト
- Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - Understanding Physical Effects for Effective Tool-use [91.55810923916454]
本稿では,最小の協力力で効果的なツール利用戦略を創出するロボット学習計画フレームワークを提案する。
FEM(Finite Element Method)をベースとしたシミュレータを用いて,観測ツール使用時の細粒度,連続的な視覚的,身体的効果を再現する。
シミュレーションでは,提案手法が2つのタスクで観測されたものとは大きく異なる,より効果的なツール利用戦略を実現できることを示す。
論文 参考訳(メタデータ) (2022-06-30T03:13:38Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Motion Generation Using Bilateral Control-Based Imitation Learning with
Autoregressive Learning [3.4410212782758047]
本稿では,二元的制御に基づく模倣学習のための自己回帰学習法を提案する。
自己回帰学習を実装するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-11-12T04:35:48Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。