論文の概要: Backward Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.14214v1
- Date: Thu, 29 Dec 2022 08:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:39:35.734487
- Title: Backward Curriculum Reinforcement Learning
- Title(参考訳): 後進カリキュラム強化学習
- Authors: KyungMin Ko, Sajad Khodadadian, Siva Theja Maguluri
- Abstract要約: 現在の強化学習アルゴリズムは、前向きに生成した軌道を使ってエージェントを訓練する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントに強い報酬信号を与えるため、エージェントはよりサンプル効率の良い方法で学習することができる。
- 参考スコア(独自算出の注目度): 7.176107039687232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current reinforcement learning algorithm uses forward-generated
trajectories to train the agent. The forward-generated trajectories give the
agent little guidance, so the agent can explore as much as possible. While the
appreciation of reinforcement learning comes from enough exploration, this
gives the trade-off of losing sample efficiency. The sampling efficiency is an
important factor that decides the performance of the algorithm. Past tasks use
reward shaping techniques and changing the structure of the network to increase
sample efficiency, however these methods require many steps to implement. In
this work, we propose novel reverse curriculum reinforcement learning. Reverse
curriculum learning starts training the agent using the backward trajectory of
the episode rather than the original forward trajectory. This gives the agent a
strong reward signal, so the agent can learn in a more sample-efficient manner.
Moreover, our method only requires a minor change in algorithm, which is
reversing the order of trajectory before training the agent. Therefore, it can
be simply applied to any state-of-art algorithms.
- Abstract(参考訳): 現在の強化学習アルゴリズムは、エージェントを訓練するために前方生成トラジェクタを使用する。
前方生成軌道はエージェントにほとんど誘導を与えないので、エージェントは可能な限り探索することができる。
強化学習は十分な探索から得られるが、これはサンプル効率を失うというトレードオフをもたらす。
サンプリング効率はアルゴリズムの性能を決定する重要な要素である。
過去のタスクでは、報酬形成技術を使用し、サンプル効率を高めるためにネットワークの構造を変更するが、実装には多くのステップが必要である。
本研究では,新しい逆カリキュラム強化学習を提案する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントは強い報酬信号を与え、エージェントはよりサンプル効率のよい方法で学習することができる。
さらに,本手法では,エージェントの訓練前に軌道の順序を逆転させるアルゴリズムを若干変更するだけでよい。
したがって、どの最先端アルゴリズムにも簡単に適用できる。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Inverse Reinforcement Learning from Non-Stationary Learning Agents [11.203097744443898]
本研究では,このエージェントが最適方針を学習している間に収集した軌跡データを用いて学習エージェントの報酬関数を学習する逆強化学習問題について検討する。
本稿では,学習者の政策パラメータを推定し,その報酬関数を推定する逆強化学習法を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:02:44Z) - Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - Trial and Error: Exploration-Based Trajectory Optimization for LLM Agents [49.85633804913796]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。