論文の概要: Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2304.06055v1
- Date: Wed, 12 Apr 2023 11:38:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-04-14 16:48:15.646806
- Title: Exploiting Symmetry and Heuristic Demonstrations in Off-policy
Reinforcement Learning for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのためのオフライン強化学習における爆発的対称性とヒューリスティックな実証
- Authors: Amir M. Soufi Enayati, Zengjie Zhang, Kashish Gupta, and Homayoun
Najjaran
- Abstract要約: 本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
提案手法は,産業用アームの2つのポイント・ツー・ポイント・リーチタスクによって,障害物を伴わずに検証される。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の優位性を示している。
- 参考スコア(独自算出の注目度): 1.7901837062462316
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Reinforcement learning demonstrates significant potential in automatically
building control policies in numerous domains, but shows low efficiency when
applied to robot manipulation tasks due to the curse of dimensionality. To
facilitate the learning of such tasks, prior knowledge or heuristics that
incorporate inherent simplification can effectively improve the learning
performance. This paper aims to define and incorporate the natural symmetry
present in physical robotic environments. Then, sample-efficient policies are
trained by exploiting the expert demonstrations in symmetrical environments
through an amalgamation of reinforcement and behavior cloning, which gives the
off-policy learning process a diverse yet compact initiation. Furthermore, it
presents a rigorous framework for a recent concept and explores its scope for
robot manipulation tasks. The proposed method is validated via two
point-to-point reaching tasks of an industrial arm, with and without an
obstacle, in a simulation experiment study. A PID controller, which tracks the
linear joint-space trajectories with hard-coded temporal logic to produce
interim midpoints, is used to generate demonstrations in the study. The results
of the study present the effect of the number of demonstrations and quantify
the magnitude of behavior cloning to exemplify the possible improvement of
model-free reinforcement learning in common manipulation tasks. A comparison
study between the proposed method and a traditional off-policy reinforcement
learning algorithm indicates its advantage in learning performance and
potential value for applications.
- Abstract(参考訳): 強化学習は多くの領域で制御ポリシーを自動構築する上で大きな可能性を示すが、次元の呪いによるロボット操作タスクに適用した場合の効率は低い。
このようなタスクの学習を容易にするため、本質的な単純化を含む事前知識やヒューリスティックスは、学習性能を効果的に向上させることができる。
本稿では,物理ロボット環境に存在する自然対称性を定義し,組み込むことを目的とする。
次に、サンプル効率のよいポリシーを、強化と振る舞いのクローニングの融合によって対称的な環境で専門家のデモンストレーションを活用し、オフポリシー学習プロセスを多様かつコンパクトな開始にすることで訓練する。
さらに,最近の概念に対する厳格な枠組みを提示し,ロボット操作タスクのスコープを探究する。
シミュレーション実験において,提案手法は,障害物の有無に関わらず,産業用アームの2つのポイント・ツー・ポイント到達タスクによって検証される。
中間中間点を生成するためにハードコード時間論理を用いた線形結合空間軌跡の追跡を行うPIDコントローラを用いて,本研究の実証を行う。
本研究の結果は, 一般的な操作作業におけるモデルフリー強化学習の改善を実証するために, 実演回数の影響と行動クローニングの規模を定量化するものである。
提案手法と従来の非政治強化学習アルゴリズムとの比較研究は,アプリケーションにおける学習性能と潜在的価値の利点を示している。
関連論文リスト
- The Art of Imitation: Learning Long-Horizon Manipulation Tasks from Few Demonstrations [13.747258771184372]
TP-GMMの適用にはいくつかのオープンな課題がある。
我々はロボットのエンドエフェクター速度を方向と大きさに分解する。
次に、複雑な実証軌道からセグメントとシーケンスのスキルを抽出する。
私たちのアプローチでは,5つのデモから複雑な操作タスクを学習することが可能です。
論文 参考訳(メタデータ) (2024-07-18T12:01:09Z) - Unlearning with Control: Assessing Real-world Utility for Large Language Model Unlearning [97.2995389188179]
最近の研究は、勾配上昇(GA)を通した大規模言語モデル(LLM)の未学習にアプローチし始めている。
その単純さと効率性にもかかわらず、我々はGAベースの手法が過剰な未学習の傾向に直面することを示唆している。
過剰な未学習の度合いを制御できるいくつかの制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - Unsupervised Learning of Effective Actions in Robotics [0.9374652839580183]
ロボット工学における現在の最先端のアクション表現は、ロボットのアクションに対する適切な効果駆動学習を欠いている。
連続運動空間の離散化と「アクションプロトタイプ」生成のための教師なしアルゴリズムを提案する。
シミュレーションされた階段登上補強学習課題について,本手法の評価を行った。
論文 参考訳(メタデータ) (2024-04-03T13:28:52Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Tactile Active Inference Reinforcement Learning for Efficient Robotic
Manipulation Skill Acquisition [10.072992621244042]
触覚能動推論強化学習(Tactile Active Inference Reinforcement Learning, Tactile-AIRL)と呼ばれるロボット操作におけるスキル学習手法を提案する。
強化学習(RL)の性能を高めるために,モデルに基づく手法と本質的な好奇心をRLプロセスに統合した能動推論を導入する。
本研究では,タスクをプッシュする非包括的オブジェクトにおいて,学習効率が著しく向上することが実証された。
論文 参考訳(メタデータ) (2023-11-19T10:19:22Z) - MoDem: Accelerating Visual Model-Based Reinforcement Learning with
Demonstrations [36.44386146801296]
サンプルの低さは、現実世界のアプリケーションに深層強化学習(RL)アルゴリズムをデプロイする上で、依然として最大の課題である。
モデルベースRLのサンプル効率を劇的に向上させることができるのは,ごく少数のデモンストレーションのみである。
本研究では,3つの複雑なビジュオモータ制御領域を実験的に検討し,スパース報酬タスクの完了に150%-250%成功していることを確認した。
論文 参考訳(メタデータ) (2022-12-12T04:28:50Z) - SAM-RL: Sensing-Aware Model-Based Reinforcement Learning via
Differentiable Physics-Based Simulation and Rendering [49.78647219715034]
本稿では,SAM-RL と呼ばれる感性認識モデルに基づく強化学習システムを提案する。
SAM-RLは、センサーを意識した学習パイプラインによって、ロボットがタスクプロセスを監視するための情報的視点を選択することを可能にする。
我々は,ロボット組立,ツール操作,変形可能なオブジェクト操作という3つの操作タスクを達成するための実世界の実験に,我々のフレームワークを適用した。
論文 参考訳(メタデータ) (2022-10-27T05:30:43Z) - Leveraging Demonstrations with Latent Space Priors [90.56502305574665]
本稿では,スキル学習とシーケンスモデリングを組み合わせることで,実演データセットを活用することを提案する。
本研究では、国家のみのモーションキャプチャーの実証から、そのような先行情報をどうやって取得するかを示し、政策学習に組み込むためのいくつかの方法を探る。
実験結果から, 学習速度と最終性能において, 遅延空間が顕著に向上することが確認された。
論文 参考訳(メタデータ) (2022-10-26T13:08:46Z) - Understanding Physical Effects for Effective Tool-use [91.55810923916454]
本稿では,最小の協力力で効果的なツール利用戦略を創出するロボット学習計画フレームワークを提案する。
FEM(Finite Element Method)をベースとしたシミュレータを用いて,観測ツール使用時の細粒度,連続的な視覚的,身体的効果を再現する。
シミュレーションでは,提案手法が2つのタスクで観測されたものとは大きく異なる,より効果的なツール利用戦略を実現できることを示す。
論文 参考訳(メタデータ) (2022-06-30T03:13:38Z) - ReIL: A Framework for Reinforced Intervention-based Imitation Learning [3.0846824529023387]
Reinforced Intervention-based Learning (ReIL) は、一般的な介入に基づく学習アルゴリズムとマルチタスク模倣学習モデルからなるフレームワークである。
実世界の移動ロボットナビゲーションの課題による実験結果から、ReILは性能の劣化に悩まされることなく、緩やかな監督補正から素早く学習できることが示唆された。
論文 参考訳(メタデータ) (2022-03-29T09:30:26Z) - Multitask Adaptation by Retrospective Exploration with Learned World
Models [77.34726150561087]
本稿では,タスク非依存ストレージから取得したMBRLエージェントのトレーニングサンプルを提供するRAMaというメタ学習型アドレッシングモデルを提案する。
このモデルは、期待されるエージェントのパフォーマンスを最大化するために、ストレージから事前のタスクを解く有望な軌道を選択することで訓練される。
論文 参考訳(メタデータ) (2021-10-25T20:02:57Z) - Efficiently Training On-Policy Actor-Critic Networks in Robotic Deep
Reinforcement Learning with Demonstration-like Sampled Exploration [7.930709072852582]
本稿では,アクター批判アルゴリズムに基づく実証から学ぶための一般的なフレームワークを提案する。
我々は,Mujocoの4つの標準ベンチマーク環境と,自設計の2つのロボット環境について実験を行った。
論文 参考訳(メタデータ) (2021-09-27T12:42:05Z) - Demonstration-Efficient Guided Policy Search via Imitation of Robust
Tube MPC [36.3065978427856]
我々は,計算コストのかかるモデル予測制御器(MPC)を,深層ニューラルネットワークとImitation Learning(IL)に基づくより計算効率の良い表現に圧縮する戦略を提案する。
MPCのロバスト管変種(RTMPC)を生成し,その特性を活用することにより,高実演効率を実現するデータ拡張手法を提案する。
本手法は, DAgger や Domain Randomization などの IL において, 実演効率, 摂動に対する頑健性において, トレーニング中に見つからない戦略よりも優れていた。
論文 参考訳(メタデータ) (2021-09-21T01:50:19Z) - Residual Reinforcement Learning from Demonstrations [51.56457466788513]
報酬信号の最大化のために,従来のフィードバックコントローラからの制御動作を適用することで,ロボット作業の課題を解決する手段として,残留強化学習(Residual reinforcement learning, RL)が提案されている。
視覚的インプットから学習するための残差定式化を拡張し,実演を用いて報酬をスパースする。
6-DoFのUR5アームと28-DoFのデキスタラスハンドのシミュレーション操作に関する実験的評価は、デモからの残留RLが、行動クローニングやRL微調整よりも柔軟に、見えない環境条件に一般化できることを実証している。
論文 参考訳(メタデータ) (2021-06-15T11:16:49Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - Motion Generation Using Bilateral Control-Based Imitation Learning with
Autoregressive Learning [3.4410212782758047]
本稿では,二元的制御に基づく模倣学習のための自己回帰学習法を提案する。
自己回帰学習を実装するニューラルネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-11-12T04:35:48Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Forgetful Experience Replay in Hierarchical Reinforcement Learning from
Demonstrations [55.41644538483948]
本稿では,複雑な視覚環境において,エージェントが低品質な実演を行えるようにするためのアプローチの組み合わせを提案する。
提案した目標指向のリプレイバッファ構築により,エージェントはデモにおいて複雑な階層的タスクを解くためのサブゴールを自動的に強調することができる。
私たちのアルゴリズムに基づくこのソリューションは、有名なMineRLコンペティションのすべてのソリューションを破り、エージェントがMinecraft環境でダイヤモンドをマイニングすることを可能にする。
論文 参考訳(メタデータ) (2020-06-17T15:38:40Z) - Task-Feature Collaborative Learning with Application to Personalized
Attribute Prediction [166.87111665908333]
本稿では,TFCL(Task-Feature Collaborative Learning)と呼ばれる新しいマルチタスク学習手法を提案する。
具体的には、まず、特徴とタスクの協調的なグループ化を活用するために、不均一なブロック対角構造正規化器を用いたベースモデルを提案する。
実際の拡張として,重なり合う機能と難易度を区別することで,基本モデルを拡張します。
論文 参考訳(メタデータ) (2020-04-29T02:32:04Z) - Discrete Action On-Policy Learning with Action-Value Critic [72.20609919995086]
離散的な行動空間における強化学習(RL)は、実世界の応用では至るところで行われているが、その複雑さは行動空間次元とともに指数関数的に増大する。
我々は,行動値関数を推定し,相関行動に適用し,これらの評価値を組み合わせて勾配推定の分散を制御する。
これらの取り組みにより、分散制御技術に頼って、関連するRLアルゴリズムを実証的に上回る、新たな離散的なRLアルゴリズムが実現される。
論文 参考訳(メタデータ) (2020-02-10T04:23:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。