論文の概要: Failed Goal Aware Hindsight Experience Replay
- arxiv url: http://arxiv.org/abs/2208.14741v2
- Date: Thu, 2 Nov 2023 07:04:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 18:35:55.600055
- Title: Failed Goal Aware Hindsight Experience Replay
- Title(参考訳): ゴールを意識した後見経験リプレイの失敗
- Authors: Taeyoung Kim, Dongsoo Har
- Abstract要約: Aware HER (FAHER) はサンプリング効率を高めるために提案されている。
FAHERは、達成できない本来の目標として定義される失敗した目標に関連して達成された目標の特性を利用する。
提案手法は,OpenAIジムの3つのロボット制御タスクを用いた実験により検証された。
- 参考スコア(独自算出の注目度): 3.4616343332323596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In multi-goal reinforcement learning for a given environment, agents learn
policies to achieve multiple goals by using experiences gained from
interactions with the environment. One of the key challenges in this setting is
training agents using sparse binary rewards, which can be difficult due to a
lack of successful experiences. To address this challenge, hindsight experience
replay (HER) generates successful experiences from unsuccessful experiences.
However, the process of generating successful experiences from uniformly
sampled ones can be inefficient. In this paper, a novel approach called Failed
goal Aware HER (FAHER) is proposed to enhance the sampling efficiency. The
approach exploits the property of achieved goals in relation to failed goals
that are defined as the original goals not achieved. The proposed method
involves clustering episodes with different achieved goals using a cluster
model and subsequently sampling experiences in the manner of HER. The cluster
model is generated by applying a clustering algorithm to failed goals. The
proposed method is validated by experiments with three robotic control tasks of
the OpenAI gym. The results of experiments demonstrate that the proposed method
is more sample efficient and achieves improved performance over baseline
approaches.
- Abstract(参考訳): 与えられた環境に対する多目的強化学習において、エージェントは環境との相互作用から得られる経験を用いて、複数の目標を達成するためのポリシーを学ぶ。
この設定における重要な課題の1つは、スパースバイナリ報酬を使用したトレーニングエージェントである。
この課題に対処するため、後視体験再生(HER)は失敗経験から成功した経験を生成する。
しかし、一様にサンプリングされた経験から成功した経験を生成するプロセスは非効率である。
本稿では, サンプリング効率を高めるために, 目標認識の失敗 (faher) と呼ばれる新しいアプローチを提案する。
このアプローチは、達成できない本来の目標として定義される失敗した目標に関連して達成された目標の特性を利用する。
提案手法では,クラスタモデルを用いて達成目標の異なるエピソードをクラスタリングし,その後に自身の方法で経験をサンプリングする。
クラスタモデルは、失敗した目標にクラスタリングアルゴリズムを適用することで生成される。
提案手法は,OpenAIジムの3つのロボット制御タスクを用いた実験により検証された。
実験の結果,提案手法はサンプル効率が向上し,ベースライン法よりも性能が向上することが示された。
関連論文リスト
- Iterative Experience Refinement of Software-Developing Agents [81.09737243969758]
大規模な言語モデル(LLM)は、過去の経験を活用してエラーを低減し、効率を高めることができる。
本稿では,LLMエージェントがタスク実行中に反復的に経験を洗練できる反復体験精錬フレームワークを提案する。
論文 参考訳(メタデータ) (2024-05-07T11:33:49Z) - Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - SVDE: Scalable Value-Decomposition Exploration for Cooperative
Multi-Agent Reinforcement Learning [22.389803019100423]
本稿では、スケーラブルなトレーニング機構、本質的な報酬設計、爆発的体験再生を含む、スケーラブルな価値分解探索(SVDE)手法を提案する。
提案手法は,StarCraft IIマイクロマネジメントゲームにおいて,他の一般的なアルゴリズムと比較して,ほぼすべてのマップ上で最高の性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T03:17:20Z) - Sampling Through the Lens of Sequential Decision Making [9.101505546901999]
我々はアダプティブ・サンプル・ウィズ・リワード(ASR)と呼ばれる報酬誘導型サンプリング戦略を提案する。
提案手法は,サンプリング過程を最適に調整し,最適性能を実現する。
情報検索とクラスタリングの実証的な結果は、異なるデータセット間でのASRのスーパーブパフォーマンスを示している。
論文 参考訳(メタデータ) (2022-08-17T04:01:29Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - An Investigation of Replay-based Approaches for Continual Learning [79.0660895390689]
連続学習(CL)は機械学習(ML)の大きな課題であり、破滅的忘れ(CF)を伴わずに連続的に複数のタスクを学習する能力を記述する。
いくつかの解クラスが提案されており、その単純さと堅牢性から、いわゆるリプレイベースのアプローチは非常に有望であるように思われる。
連続学習におけるリプレイに基づくアプローチを実証的に検討し,応用の可能性を評価する。
論文 参考訳(メタデータ) (2021-08-15T15:05:02Z) - MHER: Model-based Hindsight Experience Replay [33.00149668905828]
マルチゴール強化学習の問題を解決するために,モデルに基づくHHER(Hindsight Experience Replay)を提案する。
トレーニングされたダイナミックスモデルとのインタラクションから生成された仮想目標に元の目標を置き換えることで、新たなレザベリングメソッドが実現される。
MHERは、仮想的な達成目標を生成するために環境力学を活用することにより、より効率的に体験を利用する。
論文 参考訳(メタデータ) (2021-07-01T08:52:45Z) - Robust Ensemble Model Training via Random Layer Sampling Against
Adversarial Attack [38.1887818626171]
本稿では,深層ニューラルネットワークのロバスト性を改善するために,ランダム層サンプリングを用いたアンサンブルモデルトレーニングフレームワークを提案する。
提案するトレーニングフレームワークでは,ランダム層サンプリングにより種々のサンプルモデルを生成し,サンプルモデルの重みを更新する。
アンサンブルモデルが訓練された後、効率よく勾配を隠蔽し、勾配に基づく攻撃を避けることができる。
論文 参考訳(メタデータ) (2020-05-21T16:14:18Z) - Learning Sparse Rewarded Tasks from Sub-Optimal Demonstrations [78.94386823185724]
模倣学習は、既存の専門家のデモンストレーションを活用することで、スパース・リワードされたタスクで効果的に学習する。
実際には、十分な量の専門家によるデモンストレーションを集めることは、違法にコストがかかる。
限られた数の準最適実演に限り、最適性能を(ほぼ)達成できる自己適応学習(SAIL)を提案する。
論文 参考訳(メタデータ) (2020-04-01T15:57:15Z) - Progressive Multi-Stage Learning for Discriminative Tracking [25.94944743206374]
本稿では,頑健な視覚追跡のためのサンプル選択の段階的多段階最適化ポリシを用いた共同識別学習手法を提案する。
提案手法は, 時間重み付き, 検出誘導型セルフペースト学習戦略により, 簡単なサンプル選択を行う。
ベンチマークデータセットの実験では、提案した学習フレームワークの有効性が示されている。
論文 参考訳(メタデータ) (2020-04-01T07:01:30Z) - Soft Hindsight Experience Replay [77.99182201815763]
ソフト・ハイドサイト・エクスペリエンス・リプレイ(SHER)は,HERと最大エントロピー強化学習(MERL)に基づく新しいアプローチである
オープンAIロボット操作タスクにおけるSHERの評価を行った。
論文 参考訳(メタデータ) (2020-02-06T03:57:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。