論文の概要: Discrete-to-Deep Supervised Policy Learning
- arxiv url: http://arxiv.org/abs/2005.02057v1
- Date: Tue, 5 May 2020 10:49:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 13:32:42.619298
- Title: Discrete-to-Deep Supervised Policy Learning
- Title(参考訳): 離散的から深層的な政策学習
- Authors: Budi Kurniawan, Peter Vamplew, Michael Papasimeon, Richard Dazeley,
Cameron Foale
- Abstract要約: 本稿では,強化学習におけるニューラルネットワークのトレーニングのためのD2D-SPL(Disdisrete-to-Deep Supervised Policy Learning)を提案する。
D2D-SPLは単一のエージェントを使用し、経験的な再生を必要とせず、最先端のメソッドよりも高速に学習する。
- 参考スコア(独自算出の注目度): 2.212418070140923
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Neural networks are effective function approximators, but hard to train in
the reinforcement learning (RL) context mainly because samples are correlated.
For years, scholars have got around this by employing experience replay or an
asynchronous parallel-agent system. This paper proposes Discrete-to-Deep
Supervised Policy Learning (D2D-SPL) for training neural networks in RL.
D2D-SPL discretises the continuous state space into discrete states and uses
actor-critic to learn a policy. It then selects from each discrete state an
input value and the action with the highest numerical preference as an
input/target pair. Finally it uses input/target pairs from all discrete states
to train a classifier. D2D-SPL uses a single agent, needs no experience replay
and learns much faster than state-of-the-art methods. We test our method with
two RL environments, the Cartpole and an aircraft manoeuvring simulator.
- Abstract(参考訳): ニューラルネットワークは有効な関数近似器であるが、主にサンプルが相関しているため、強化学習(RL)コンテキストでのトレーニングは困難である。
長年にわたって、研究者は経験リプレイや非同期並列エージェントシステムを用いることでこの問題に取り組んできた。
本稿では,ニューラルネットワークをRLで学習するためのD2D-SPLを提案する。
D2D-SPLは連続状態空間を離散状態に識別し、アクタークリティカルを用いてポリシーを学ぶ。
次に、各離散状態から入力値と最も数値的好みのアクションを入力/ターゲットペアとして選択する。
最後に、すべての離散状態からの入力/ターゲットペアを使用して分類器をトレーニングする。
D2D-SPLは単一のエージェントを使用し、経験的な再生を必要とせず、最先端のメソッドよりも高速に学習する。
我々は,2つのRL環境,Cartpoleと航空機操作シミュレータを用いて実験を行った。
関連論文リスト
- Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。
DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。
DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文 参考訳(メタデータ) (2024-05-30T05:04:33Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - Train a Real-world Local Path Planner in One Hour via Partially
Decoupled Reinforcement Learning and Vectorized Diversity [8.068886870457561]
深層強化学習(DRL)は局所経路計画(LPP)問題の解決に有効である。
実世界におけるそのような応用は、DRLの訓練効率と一般化能力の不足により、非常に制限されている。
アクター・シャーラーラーナー(ASL)トレーニングフレームワークと移動ロボット指向シミュレータSparrowで構成されたColorというソリューションが提案されている。
論文 参考訳(メタデータ) (2023-05-07T03:39:31Z) - Visual processing in context of reinforcement learning [0.0]
この論文では、従来のRLアルゴリズムが使用するデータソースの異なるサブセットにアクセス可能な3つの異なる表現学習アルゴリズムを紹介している。
RL問題解決パイプラインに教師なし表現学習を含めれば、学習を高速化できると結論付けている。
論文 参考訳(メタデータ) (2022-08-26T09:30:51Z) - Value-Consistent Representation Learning for Data-Efficient
Reinforcement Learning [105.70602423944148]
本稿では,意思決定に直接関連のある表現を学習するための,VCR(Value-Consistent Expression Learning)という新しい手法を提案する。
この想像された状態と環境によって返される実状態とを一致させる代わりに、VCRは両方の状態に$Q$-valueヘッドを適用し、2つのアクション値の分布を得る。
検索不要なRLアルゴリズムに対して,提案手法が新たな最先端性能を実現することが実証された。
論文 参考訳(メタデータ) (2022-06-25T03:02:25Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - RvS: What is Essential for Offline RL via Supervised Learning? [77.91045677562802]
近年の研究では、時間差(TD)のない教師あり学習だけでオフラインRLに極めて効果的であることが示されている。
あらゆる環境スイートにおいて、2層フィードフォワードによる可能性の最大化は競争力がある。
彼らはまた、ランダムデータに対して比較的弱い既存のRvS法の限界を探索する。
論文 参考訳(メタデータ) (2021-12-20T18:55:16Z) - Co-training for Deep Object Detection: Comparing Single-modal and
Multi-modal Approaches [0.0]
自己ラベル型オブジェクトバウンディングボックス(BB)取得のための半教師付き学習(SSL)手法であるco-trainingの利用に重点を置いています。
特に、画像の2つの異なるビュー、すなわち、外観(RGB)と推定深さ(D)に依存して、マルチモーダルコトレーニングの有用性を評価する。
その結果、標準SSL設定(ドメインシフトなし、人間ラベルデータが少ない)と仮想から現実のドメインシフト(仮想世界ラベルデータが多い、人間ラベルデータなし)では、マルチモーダル共訓練が単一モーダルよりも優れていることが示唆された。
論文 参考訳(メタデータ) (2021-04-23T14:13:59Z) - Learn Dynamic-Aware State Embedding for Transfer Learning [0.8756822885568589]
報酬機能以外のすべてのタスク(MDP)が同じ環境を動的に共有する設定を検討します。
この設定では、MDPのダイナミクスは、一様ランダムなポリシーによって推測できる、転送のよい知識である。
我々は、一様ランダムポリシーの必要性を避けるため、任意のポリシーの軌跡からバイナリMDPのダイナミクスを推定できることを観察する。
論文 参考訳(メタデータ) (2021-01-06T19:07:31Z) - Decoupling Representation Learning from Reinforcement Learning [89.82834016009461]
Augmented Temporal Contrast (ATC) と呼ばれる教師なし学習タスクを導入する。
ATCは畳み込みエンコーダを訓練し、短い時間差で分離された観測ペアを関連付ける。
オンラインRL実験では,ATCマッチを用いたエンコーダのトレーニングや,エンド・ツー・エンドのRLよりも優れていた。
論文 参考訳(メタデータ) (2020-09-14T19:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。