論文の概要: Cluster-based Sampling in Hindsight Experience Replay for Robot Control
- arxiv url: http://arxiv.org/abs/2208.14741v1
- Date: Wed, 31 Aug 2022 09:45:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-01 13:48:49.952949
- Title: Cluster-based Sampling in Hindsight Experience Replay for Robot Control
- Title(参考訳): ロボット制御のための後見体験リプレイにおけるクラスタベースサンプリング
- Authors: Taeyoung Kim, Dongsoo Har
- Abstract要約: 達成目標の特性を活かしたクラスタベースのサンプリング戦略を提案する。
提案した戦略は、OpenAI Gymの3つのロボット制御タスクの実験によって検証される。
- 参考スコア(独自算出の注目度): 3.271752086810989
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-goal reinforcement learning in an environment, agents learn policies
to achieve multiple goals by using experiences gained from interactions with
the environment. With a sparse binary reward, training agents is particularly
challenging, due to a lack of successful experiences. To solve this problem,
hindsight experience replay (HER) generates successful experiences from
unsuccessful experiences. However, generating successful experiences without
consideration of the property of achieved goals is less efficient. In this
paper, a novel cluster-based sampling strategy exploiting the property of
achieved goals is proposed. The proposed sampling strategy groups episodes with
different achieved goals and samples experiences in the manner of HER. For the
grouping, K-means clustering algorithm is used. The centroids of the clusters
are obtained from the distribution of failed goals defined as the original
goals not achieved. The proposed method is validated by experiments with three
robotic control tasks of the OpenAI Gym. The results of experiments demonstrate
that the proposed method significantly reduces the number of epochs required
for convergence in two of the three tasks and marginally increases the success
rates in the remaining one. It is also shown that the proposed method can be
combined with other sampling strategies for HER.
- Abstract(参考訳): エージェントは,環境とのインタラクションから得られた経験を用いて,複数の目標を達成するための方針を学習する。
わずかなバイナリ報酬で、トレーニングエージェントは、成功した経験が不足しているため、特に難しい。
この問題を解決するため、hindsight experience replay (her) は成功した経験から成功した経験を生成する。
しかし、達成された目標の特性を考慮せずに成功した経験を生み出すことは、効率が低下する。
本稿では,達成目標の特性を生かした新しいクラスタベースサンプリング戦略を提案する。
提案した抽出戦略群は,HERの方法で達成された目標とサンプル経験の異なるエピソードである。
グループ化にはK平均クラスタリングアルゴリズムを用いる。
クラスタのセンタロイドは、元の目標が達成できないと定義された失敗目標の分布から得られる。
提案手法は,OpenAI Gymの3つのロボット制御タスクを用いた実験により検証された。
実験の結果,提案手法は3つのタスクのうち2つにおいて,収束に必要なエポック数を大幅に削減し,残りのタスクの成功率をわずかに増加させることが示された。
また,提案手法を他のサンプリング戦略と組み合わせることも可能であることを示した。
関連論文リスト
- Efficient Diversity-based Experience Replay for Deep Reinforcement Learning [14.96744975805832]
本稿では, 状態実現における多種多様なサンプルの優先順位付けに決定論的点プロセスを活用する, 多様性に基づく経験リプレイ(DBER)を提案する。
我々は,MuJoCo,Atariゲーム,ハビタットのリアルな室内環境におけるロボットマニピュレーションタスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:51:27Z) - Adaptive teachers for amortized samplers [76.88721198565861]
償却推論(英: Amortized inference)とは、ニューラルネットワークなどのパラメトリックモデルをトレーニングし、正確なサンプリングが可能な所定の非正規化密度で分布を近似するタスクである。
オフ・ポリティクスのRLトレーニングは多様でハイ・リワードな候補の発見を促進するが、既存の手法は依然として効率的な探索の課題に直面している。
そこで本研究では,高次領域の優先順位付けにより,初等補正標本作成者(学生)の指導を指導する適応学習分布(教師)を提案する。
論文 参考訳(メタデータ) (2024-10-02T11:33:13Z) - Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。
RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。
AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文 参考訳(メタデータ) (2024-07-18T17:55:22Z) - SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T03:17:20Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。