Fugu-MT 論文翻訳(概要): Learning Intrinsic Symbolic Rewards in Reinforcement Learning

論文の概要: Learning Intrinsic Symbolic Rewards in Reinforcement Learning

arxiv url: http://arxiv.org/abs/2010.03694v2
Date: Fri, 9 Oct 2020 06:42:03 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-09 11:12:39.742944
Title: Learning Intrinsic Symbolic Rewards in Reinforcement Learning
Title（参考訳）: 強化学習における内在的象徴的報酬の学習
Authors: Hassam Sheikh, Shauharda Khadka, Santiago Miret, Somdeb Majumdar
Abstract要約: 低次元のシンボル木の形で高密度報酬を発見する方法を提案する。得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。
参考スコア（独自算出の注目度）: 7.101885582663675
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning effective policies for sparse objectives is a key challenge in Deep Reinforcement Learning (RL). A common approach is to design task-related dense rewards to improve task learnability. While such rewards are easily interpreted, they rely on heuristics and domain expertise. Alternate approaches that train neural networks to discover dense surrogate rewards avoid heuristics, but are high-dimensional, black-box solutions offering little interpretability. In this paper, we present a method that discovers dense rewards in the form of low-dimensional symbolic trees - thus making them more tractable for analysis. The trees use simple functional operators to map an agent's observations to a scalar reward, which then supervises the policy gradient learning of a neural network policy. We test our method on continuous action spaces in Mujoco and discrete action spaces in Atari and Pygame environments. We show that the discovered dense rewards are an effective signal for an RL policy to solve the benchmark tasks. Notably, we significantly outperform a widely used, contemporary neural-network based reward-discovery algorithm in all environments considered.
Abstract（参考訳）: 疎外目標に対する効果的な政策学習は、深層強化学習(RL)において重要な課題である。一般的なアプローチは、タスク学習性を改善するためにタスク関連の密集した報酬を設計することである。このような報酬は容易に解釈できるが、ヒューリスティックスやドメインの専門知識に依存している。ニューラルネットワークを訓練して高密度サロゲート報酬を発見するという代替アプローチは、ヒューリスティックスは避けるが、高次元のブラックボックスソリューションで、解釈性はほとんどない。本稿では,低次元のシンボルツリーの形で高密度報酬を発見する手法を提案する。木は単純な機能演算子を使用してエージェントの観察結果をスカラー報酬にマッピングし、ニューラルネットワークポリシーのポリシー勾配学習を監督する。本手法をmujocoにおける連続的アクション空間とatariおよびpygame環境における離散的アクション空間上でテストする。得られた高密度報酬は、ベンチマークタスクを解くためのRLポリシーに有効な信号であることを示す。特に、検討されたすべての環境において、現代のニューラルネットワークに基づく報酬発見アルゴリズムを広く利用している。

関連論文リスト

Autonomous state-space segmentation for Deep-RL sparse reward scenarios [0.30693357740321775]
内在的モチベーションは、ディープラーニング学習アルゴリズムの学習を支援する効果的な方法になり得る。探索と自律的なサブゴール生成の「本質的な」段階を交互に行う2段階アーキテクチャを提案する。
論文参考訳（メタデータ） (2025-04-04T13:06:23Z)
Black box meta-learning intrinsic rewards for sparse-reward environments [0.0]
本研究では,RLエージェントが受信した学習信号がメタラーニングによってどのように改善されるかを検討する。我々は,この手法をメタ学習の利点関数と外因性報酬を用いて分析・比較する。開発したアルゴリズムはパラメトリックと非パラメトリックの双方で連続制御タスクの分布を評価する。
論文参考訳（メタデータ） (2024-07-31T12:09:33Z)
Random Latent Exploration for Deep Reinforcement Learning [71.88709402926415]
本稿ではRLE(Random Latent Exploration)と呼ばれる新しい探査手法を紹介する。 RLEはボーナスベースとノイズベース(ディープRLを効果的に探索するための2つの一般的なアプローチ)の強みを組み合わせたものである。 AtariとIsaacGymのベンチマークで評価し、RLEは他の手法よりも全タスクの総合スコアが高いことを示した。
論文参考訳（メタデータ） (2024-07-18T17:55:22Z)
Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文参考訳（メタデータ） (2023-11-09T00:05:17Z)
Reward Learning with Trees: Methods and Evaluation [10.473362152378979]
選好ラベルから報奨木を学習する手法を提案する。我々は、高次元課題に挑戦する上で、ニューラルネットワークと幅広い競争力を持つことを示します。複雑な環境では、報酬ツリーの学習が効果的に行えることに気付いたので、なぜそれを使うべきかを考えました。
論文参考訳（メタデータ） (2022-10-03T15:17:25Z)
Dealing with Sparse Rewards Using Graph Neural Networks [0.15540058359482856]
本稿では,グラフ畳み込みネットワークに基づく近年の報酬形成手法の2つの修正を提案する。スパース報酬を伴う3次元環境におけるナビゲーション作業におけるソリューションの有効性を実証的に検証した。また、3次元環境における重要な遷移に対応するエッジに学習された注意が集中していることを示す。
論文参考訳（メタデータ） (2022-03-25T02:42:07Z)
Hindsight Task Relabelling: Experience Replay for Sparse Reward Meta-RL [91.26538493552817]
本稿では,メタRLの学習経験をリラベルするメタRLのための後向きレバーベリングの定式化について述べる。提案手法の有効性を,難易度の高い目標達成環境のスイートで実証する。
論文参考訳（メタデータ） (2021-12-02T00:51:17Z)
Anti-Concentrated Confidence Bonuses for Scalable Exploration [57.91943847134011]
固有の報酬は、探検と探検のトレードオフを扱う上で中心的な役割を果たす。楕円ボーナスを効率的に近似するためのエンファンティ集中型信頼境界を導入する。我々は,Atariベンチマーク上での現代固有の報酬と競合する,深層強化学習のための実用的な変種を開発する。
論文参考訳（メタデータ） (2021-10-21T15:25:15Z)
MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。正規化最大度(NML)分布の計算法を提案する。得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文参考訳（メタデータ） (2021-07-15T08:19:57Z)
Disturbing Reinforcement Learning Agents with Corrupted Rewards [62.997667081978825]
強化学習アルゴリズムに対する報酬の摂動に基づく異なる攻撃戦略の効果を分析します。敵対的な報酬をスムーズに作成することは学習者を誤解させることができ、低探査確率値を使用すると、学習した政策は報酬を腐敗させるのがより堅牢であることを示しています。
論文参考訳（メタデータ） (2021-02-12T15:53:48Z)
Semi-supervised reward learning for offline reinforcement learning [71.6909757718301]
トレーニングエージェントは通常、報酬機能が必要ですが、報酬は実際にはほとんど利用できず、エンジニアリングは困難で手間がかかります。限定されたアノテーションから学習し,ラベルなしデータを含む半教師付き学習アルゴリズムを提案する。シミュレーションロボットアームを用いた実験では,動作のクローン化が大幅に向上し,真理の報奨によって達成される性能に近づいた。
論文参考訳（メタデータ） (2020-12-12T20:06:15Z)
Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文参考訳（メタデータ） (2020-10-23T23:55:06Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。