論文の概要: Backward Curriculum Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2212.14214v1
- Date: Thu, 29 Dec 2022 08:23:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-02 15:39:35.734487
- Title: Backward Curriculum Reinforcement Learning
- Title(参考訳): 後進カリキュラム強化学習
- Authors: KyungMin Ko, Sajad Khodadadian, Siva Theja Maguluri
- Abstract要約: 現在の強化学習アルゴリズムは、前向きに生成した軌道を使ってエージェントを訓練する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントに強い報酬信号を与えるため、エージェントはよりサンプル効率の良い方法で学習することができる。
- 参考スコア(独自算出の注目度): 7.176107039687232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The current reinforcement learning algorithm uses forward-generated
trajectories to train the agent. The forward-generated trajectories give the
agent little guidance, so the agent can explore as much as possible. While the
appreciation of reinforcement learning comes from enough exploration, this
gives the trade-off of losing sample efficiency. The sampling efficiency is an
important factor that decides the performance of the algorithm. Past tasks use
reward shaping techniques and changing the structure of the network to increase
sample efficiency, however these methods require many steps to implement. In
this work, we propose novel reverse curriculum reinforcement learning. Reverse
curriculum learning starts training the agent using the backward trajectory of
the episode rather than the original forward trajectory. This gives the agent a
strong reward signal, so the agent can learn in a more sample-efficient manner.
Moreover, our method only requires a minor change in algorithm, which is
reversing the order of trajectory before training the agent. Therefore, it can
be simply applied to any state-of-art algorithms.
- Abstract(参考訳): 現在の強化学習アルゴリズムは、エージェントを訓練するために前方生成トラジェクタを使用する。
前方生成軌道はエージェントにほとんど誘導を与えないので、エージェントは可能な限り探索することができる。
強化学習は十分な探索から得られるが、これはサンプル効率を失うというトレードオフをもたらす。
サンプリング効率はアルゴリズムの性能を決定する重要な要素である。
過去のタスクでは、報酬形成技術を使用し、サンプル効率を高めるためにネットワークの構造を変更するが、実装には多くのステップが必要である。
本研究では,新しい逆カリキュラム強化学習を提案する。
逆のカリキュラム学習は、元の前方軌跡ではなく、エピソードの後方軌跡を用いてエージェントを訓練する。
これにより、エージェントは強い報酬信号を与え、エージェントはよりサンプル効率のよい方法で学習することができる。
さらに,本手法では,エージェントの訓練前に軌道の順序を逆転させるアルゴリズムを若干変更するだけでよい。
したがって、どの最先端アルゴリズムにも簡単に適用できる。
関連論文リスト
- Trial and Error: Exploration-Based Trajectory Optimization for LLM
Agents [52.82856458995437]
本稿では,ETOと呼ばれる探索に基づく軌道最適化手法を提案する。
この学習方法はオープンLLMエージェントの性能を向上させるために設計されている。
3つの複雑なタスクに関する実験は、ETOがベースライン性能をはるかに上回っていることを示す。
論文 参考訳(メタデータ) (2024-03-04T21:50:29Z) - Meta-Learning with Versatile Loss Geometries for Fast Adaptation Using
Mirror Descent [44.56938629818211]
メタ学習における根本的な課題は、タスク固有のモデルをトレーニングするために、抽出したモデルを迅速に“適応”する方法である。
既存のアプローチは、タスク毎のトレーニングプロセスの収束性を高めるプリコンディショナーを使用して、この課題に対処する。
この寄与は非線形ミラーマップを学習することでこの制限に対処し、多角距離メートル法を誘導する。
論文 参考訳(メタデータ) (2023-12-20T23:45:06Z) - Learning and reusing primitive behaviours to improve Hindsight
Experience Replay sample efficiency [7.806014635635933]
簡単なタスクを解くために以前に学習されたプリミティブな動作を利用する手法を提案する。
このガイダンスは、手動で設計されたカリキュラムによって実行されるのではなく、むしろ批評家ネットワークを使用して、提案されたアクションを使用するかどうかを各タイムステップで決定する。
提案手法を用いることで,提案手法の効率と計算時間の両方において,エージェントがより高速にポリシを学習できることを実証する。
論文 参考訳(メタデータ) (2023-10-03T06:49:57Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - An intelligent algorithmic trading based on a risk-return reinforcement
learning algorithm [0.0]
本稿では,改良された深部強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。
提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題はポートフォリオ累積リターンの分布を学習することである。
Ape-xと呼ばれるマルチプロセスを用いて、深層強化学習訓練の高速化を図る。
論文 参考訳(メタデータ) (2022-08-23T03:20:06Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - Dynamic Sparse Training for Deep Reinforcement Learning [36.66889208433228]
我々は,ニューラルネットワークをスクラッチから切り離した深層強化学習エージェントを動的に訓練する試みを初めて提案する。
私たちのアプローチは、既存の深層強化学習アルゴリズムに簡単に統合できます。
我々は,オープンAI体育連続制御タスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-08T09:57:20Z) - Parrot: Data-Driven Behavioral Priors for Reinforcement Learning [79.32403825036792]
そこで本研究では,実験で得られた複雑なインプット・アウトプット関係を事前に学習する手法を提案する。
RLエージェントが新規な動作を試す能力を阻害することなく、この学習が新しいタスクを迅速に学習するのにどのように役立つかを示す。
論文 参考訳(メタデータ) (2020-11-19T18:47:40Z) - Adaptive Serverless Learning [114.36410688552579]
本研究では,データから学習率を動的に計算できる適応型分散学習手法を提案する。
提案アルゴリズムは, 作業者数に対して線形高速化が可能であることを示す。
通信効率のオーバーヘッドを低減するため,通信効率のよい分散訓練手法を提案する。
論文 参考訳(メタデータ) (2020-08-24T13:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。