論文の概要: Backward Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.14214v1
- Date: Thu, 29 Dec 2022 08:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:39:35.734487
- Title: Backward Curriculum Reinforcement Learning
- Title(参考訳): 後進カリキュラム強化学習
- Authors: KyungMin Ko, Sajad Khodadadian, Siva Theja Maguluri
- Abstract要約: 現在の強化学習アルゴリズムは、前向きに生成した軌道を使ってエージェントを訓練する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントに強い報酬信号を与えるため、エージェントはよりサンプル効率の良い方法で学習することができる。
- 参考スコア(独自算出の注目度): 7.176107039687232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current reinforcement learning algorithm uses forward-generated
trajectories to train the agent. The forward-generated trajectories give the
agent little guidance, so the agent can explore as much as possible. While the
appreciation of reinforcement learning comes from enough exploration, this
gives the trade-off of losing sample efficiency. The sampling efficiency is an
important factor that decides the performance of the algorithm. Past tasks use
reward shaping techniques and changing the structure of the network to increase
sample efficiency, however these methods require many steps to implement. In
this work, we propose novel reverse curriculum reinforcement learning. Reverse
curriculum learning starts training the agent using the backward trajectory of
the episode rather than the original forward trajectory. This gives the agent a
strong reward signal, so the agent can learn in a more sample-efficient manner.
Moreover, our method only requires a minor change in algorithm, which is
reversing the order of trajectory before training the agent. Therefore, it can
be simply applied to any state-of-art algorithms.
- Abstract(参考訳): 現在の強化学習アルゴリズムは、エージェントを訓練するために前方生成トラジェクタを使用する。
前方生成軌道はエージェントにほとんど誘導を与えないので、エージェントは可能な限り探索することができる。
強化学習は十分な探索から得られるが、これはサンプル効率を失うというトレードオフをもたらす。
サンプリング効率はアルゴリズムの性能を決定する重要な要素である。
過去のタスクでは、報酬形成技術を使用し、サンプル効率を高めるためにネットワークの構造を変更するが、実装には多くのステップが必要である。
本研究では,新しい逆カリキュラム強化学習を提案する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントは強い報酬信号を与え、エージェントはよりサンプル効率のよい方法で学習することができる。
さらに,本手法では,エージェントの訓練前に軌道の順序を逆転させるアルゴリズムを若干変更するだけでよい。
したがって、どの最先端アルゴリズムにも簡単に適用できる。
関連論文リスト
- Online inductive learning from answer sets for efficient reinforcement learning exploration [52.03682298194168]
エージェントポリシーの近似を説明可能な近似を表す論理規則の集合を学習するために,帰納的な解集合プログラムの学習を利用する。
次に、学習ルールに基づいて回答セット推論を行い、次のバッチで学習エージェントの探索をガイドします。
本手法は,初回トレーニングにおいても,エージェントが達成した割引リターンを著しく向上させる。
論文 参考訳(メタデータ) (2025-01-13T16:13:22Z) - Preventing Local Pitfalls in Vector Quantization via Optimal Transport [77.15924044466976]
我々はシンクホーンアルゴリズムを用いて最適な輸送問題を最適化する新しいベクトル量子化法であるOptVQを紹介する。
画像再構成タスクの実験では,OptVQが100%のコードブック利用を実現し,現在最先端のVQNを超越していることが示された。
論文 参考訳(メタデータ) (2024-12-19T18:58:14Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。