論文の概要: Generalized Back-Stepping Experience Replay in Sparse-Reward Environments
- arxiv url: http://arxiv.org/abs/2412.15525v1
- Date: Fri, 20 Dec 2024 03:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-23 16:21:38.085261
- Title: Generalized Back-Stepping Experience Replay in Sparse-Reward Environments
- Title(参考訳): スパース・リワード環境における一般的なバックステッピング体験リプレイ
- Authors: Guwen Lyu, Masahiro Sato,
- Abstract要約: バックステッピング体験リプレイ(BER)は、可逆環境における学習効率を向上する強化学習技術である。
元のアルゴリズムは複雑な探索を必要としない密集再帰環境のために設計されている。
本稿では,従来のアルゴリズムをスパース・リワード環境に拡張した汎用BER(Generalized BER, GBER)を提案する。
- 参考スコア(独自算出の注目度): 2.6887381380521878
- License:
- Abstract: Back-stepping experience replay (BER) is a reinforcement learning technique that can accelerate learning efficiency in reversible environments. BER trains an agent with generated back-stepping transitions of collected experiences and normal forward transitions. However, the original algorithm is designed for a dense-reward environment that does not require complex exploration, limiting the BER technique to demonstrate its full potential. Herein, we propose an enhanced version of BER called Generalized BER (GBER), which extends the original algorithm to sparse-reward environments, particularly those with complex structures that require the agent to explore. GBER improves the performance of BER by introducing relabeling mechanism and applying diverse sampling strategies. We evaluate our modified version, which is based on a goal-conditioned deep deterministic policy gradient offline learning algorithm, across various maze navigation environments. The experimental results indicate that the GBER algorithm can significantly boost the performance and stability of the baseline algorithm in various sparse-reward environments, especially those with highly structural symmetricity.
- Abstract(参考訳): バックステッピング体験リプレイ(BER)は、可逆環境における学習効率を向上する強化学習技術である。
BERは、収集された経験と通常の前方遷移のバックステッピング遷移を生成するエージェントを訓練する。
しかし、元のアルゴリズムは複雑な探索を必要としない密集再帰環境のために設計されており、BER技術はその潜在能力を示すために制限されている。
本稿では,従来のアルゴリズムをスパース・リワード環境,特にエージェントの探索を必要とする複雑な構造に拡張した BER の強化版である Generalized BER (GBER) を提案する。
GBERは、レザベリング機構を導入し、多様なサンプリング戦略を適用することにより、BERの性能を向上させる。
我々は、様々な迷路ナビゲーション環境において、目標条件の深い決定論的方針勾配オフライン学習アルゴリズムに基づく修正版の評価を行った。
実験結果から, GBERアルゴリズムは, 各種スパース・リワード環境, 特に高構造対称環境において, ベースラインアルゴリズムの性能と安定性を著しく向上させることができることが示された。
関連論文リスト
- Analysis of the Memorization and Generalization Capabilities of AI
Agents: Are Continual Learners Robust? [91.682459306359]
連続学習(CL)では、AIエージェントが動的環境下で非定常データストリームから学習する。
本稿では,過去の知識を維持しつつ,動的環境への堅牢な一般化を実現するための新しいCLフレームワークを提案する。
提案フレームワークの一般化と記憶性能を理論的に解析した。
論文 参考訳(メタデータ) (2023-09-18T21:00:01Z) - GIFD: A Generative Gradient Inversion Method with Feature Domain
Optimization [52.55628139825667]
Federated Learning(FL)は、クライアントのプライバシを保護するための有望な分散機械学習フレームワークとして登場した。
近年の研究では、事前学習された生成逆ネットワーク(GAN)を事前知識として活用することにより、攻撃者が共有勾配を逆転し、FLシステムに対する機密データを回復できることが示されている。
textbfGradient textbfInversion over textbfFeature textbfDomains (GIFD)を提案する。
論文 参考訳(メタデータ) (2023-08-09T04:34:21Z) - Adaptive Experimentation at Scale: A Computational Framework for
Flexible Batches [7.390918770007728]
結果がバッチで測定される少数の実測を含む実例によって動機付けられ,適応駆動型実験フレームワークを開発した。
我々の主な観察は、統計的推論において普遍的な正規近似は適応アルゴリズムの設計を導くことができることである。
論文 参考訳(メタデータ) (2023-03-21T04:17:03Z) - CoDEPS: Online Continual Learning for Depth Estimation and Panoptic
Segmentation [28.782231314289174]
深層学習に基づく単眼深度推定とパノプティックセグメンテーションのための連続学習をオンラインで導入する。
そこで本研究では,パノプティカルセグメンテーションに適応する擬似ラベルを生成するための新しいドメイン混合手法を提案する。
我々は,固定サイズのリプレイバッファを構築するためのサンプリング戦略を活用することで,ロボットシステムの限られたストレージ容量に明示的に対処する。
論文 参考訳(メタデータ) (2023-03-17T17:31:55Z) - Near-optimal Policy Identification in Active Reinforcement Learning [84.27592560211909]
AE-LSVI はカーネル化された最小二乗値 RL (LSVI) アルゴリズムの新しい変種であり、楽観主義と悲観主義を組み合わせて活発な探索を行う。
AE-LSVIは初期状態に対するロバスト性が必要な場合、様々な環境で他のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-12-19T14:46:57Z) - Revisiting GANs by Best-Response Constraint: Perspective, Methodology,
and Application [49.66088514485446]
ベストレスポンス制約(Best-Response Constraint、BRC)は、ジェネレータのディスクリミネータへの依存性を明示的に定式化する一般的な学習フレームワークである。
モチベーションや定式化の相違があっても, フレキシブルBRC法により, 様々なGANが一様に改善できることが示される。
論文 参考訳(メタデータ) (2022-05-20T12:42:41Z) - Exploiting Explainable Metrics for Augmented SGD [43.00691899858408]
最適化下での学習が実際にどのように機能するか、また、特定の戦略が他の方法よりも優れている理由について、未解決の疑問がいくつかある。
ネットワーク層内の冗長な情報を計測する新しい説明可能性指標を提案する。
次に、これらの指標を利用して、各レイヤの学習率を適応的に調整し、一般化性能を向上させることにより、グラディエント・ディフレッシュ(SGD)を増大させる。
論文 参考訳(メタデータ) (2022-03-31T00:16:44Z) - AutoBERT-Zero: Evolving BERT Backbone from Scratch [94.89102524181986]
そこで本稿では,提案するハイブリッドバックボーンアーキテクチャを自動検索するOP-NASアルゴリズムを提案する。
提案するOP-NASの効率を向上させるために,探索アルゴリズムと候補モデルの評価を最適化する。
実験の結果、検索されたアーキテクチャ(AutoBERT-Zero)は、様々な下流タスクにおいてBERTとそのバリエーションの異なるモデル容量を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2021-07-15T16:46:01Z) - Phase Retrieval using Expectation Consistent Signal Recovery Algorithm
based on Hypernetwork [73.94896986868146]
位相検索は現代の計算イメージングシステムにおいて重要な要素である。
近年のディープラーニングの進歩は、堅牢で高速なPRの新たな可能性を開いた。
我々は、既存の制限を克服するために、深層展開のための新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2021-01-12T08:36:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。