論文の概要: Deep Reinforcement Learning in Parameterized Action Space
- arxiv url: http://arxiv.org/abs/1511.04143v5
- Date: Fri, 3 May 2024 15:00:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-06 18:43:25.953608
- Title: Deep Reinforcement Learning in Parameterized Action Space
- Title(参考訳): パラメータ化された行動空間における深層強化学習
- Authors: Matthew Hausknecht, Peter Stone,
- Abstract要約: 本稿では,ロボットカップサッカーの模擬領域内での学習に焦点をあてる。
最高の学習エージェントは、2012年のRoboCupチャンピオンエージェントよりも確実にゴールを決められる。
- 参考スコア(独自算出の注目度): 36.01231732920175
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent work has shown that deep neural networks are capable of approximating both value functions and policies in reinforcement learning domains featuring continuous state and action spaces. However, to the best of our knowledge no previous work has succeeded at using deep neural networks in structured (parameterized) continuous action spaces. To fill this gap, this paper focuses on learning within the domain of simulated RoboCup soccer, which features a small set of discrete action types, each of which is parameterized with continuous variables. The best learned agent can score goals more reliably than the 2012 RoboCup champion agent. As such, this paper represents a successful extension of deep reinforcement learning to the class of parameterized action space MDPs.
- Abstract(参考訳): 最近の研究によると、深層ニューラルネットワークは、連続状態とアクション空間を特徴とする強化学習領域において、価値関数とポリシーの両方を近似することができる。
しかし、私たちの知る限りでは、構造化された(パラメータ化された)連続的なアクション空間でディープニューラルネットワークを使うことに、これまでの研究は成功していない。
このギャップを埋めるために、本研究では、連続変数でパラメータ化された小さな個別アクション型を特徴とする、シミュレーションされたRoboCupサッカーの領域内での学習に焦点を当てる。
最高の学習エージェントは、2012年のRoboCupチャンピオンエージェントよりも確実にゴールを決められる。
そこで本論文は,パラメータ化行動空間 MDP のクラスに対する深層強化学習の成功例を示す。
関連論文リスト
- iNeMo: Incremental Neural Mesh Models for Robust Class-Incremental Learning [22.14627083675405]
我々は、時間とともに新しいメッシュで拡張できるインクリメンタルニューラルネットワークモデルを提案する。
本研究では,Pascal3DおよびObjectNet3Dデータセットの広範な実験を通して,本手法の有効性を実証する。
我々の研究は、ポーズ推定のための最初の漸進的な学習手法も提示している。
論文 参考訳(メタデータ) (2024-07-12T13:57:49Z) - Building a Subspace of Policies for Scalable Continual Learning [21.03369477853538]
本稿では,一連のタスクで強化学習エージェントを訓練するためのポリシーのサブスペースを段階的に構築する新しいアプローチであるContinuous Subspace of Policies(CSP)を紹介する。
CSPは、Brax(ロコモーション)とContinuous World(操作)という2つの挑戦的なドメインから幅広いシナリオにおいて、多くの人気ベースラインを上回ります。
論文 参考訳(メタデータ) (2022-11-18T14:59:42Z) - On Generalizing Beyond Domains in Cross-Domain Continual Learning [91.56748415975683]
ディープニューラルネットワークは、新しいタスクを学んだ後、これまで学んだ知識の破滅的な忘れ込みに悩まされることが多い。
提案手法は、ドメインシフト中の新しいタスクを精度良く学習することで、DomainNetやOfficeHomeといった挑戦的なデータセットで最大10%向上する。
論文 参考訳(メタデータ) (2022-03-08T09:57:48Z) - Learning Bayesian Sparse Networks with Full Experience Replay for
Continual Learning [54.7584721943286]
継続学習(CL)手法は、機械学習モデルが、以前にマスターされたタスクを壊滅的に忘れることなく、新しいタスクを学習できるようにすることを目的としている。
既存のCLアプローチは、しばしば、事前に確認されたサンプルのバッファを保持し、知識蒸留を行い、あるいはこの目標に向けて正規化技術を使用する。
我々は,現在および過去のタスクを任意の段階で学習するために,スパースニューロンのみを活性化し,選択することを提案する。
論文 参考訳(メタデータ) (2022-02-21T13:25:03Z) - FFNB: Forgetting-Free Neural Blocks for Deep Continual Visual Learning [14.924672048447338]
我々は、新しい忘れのないニューラルブロック(FFNB)に基づく連続学習のための動的ネットワークアーキテクチャを考案する。
FFNB機能を新しいタスクでトレーニングするには、以前のタスクのnull-スペースのパラメータを制約する新しいプロシージャを使用する。
論文 参考訳(メタデータ) (2021-11-22T17:23:34Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Discovering Parametric Activation Functions [17.369163074697475]
本稿では,アクティベーション機能を自動でカスタマイズする手法を提案する。
CIFAR-10とCIFAR-100の画像分類データセット上の4つの異なるニューラルネットワークアーキテクチャによる実験は、このアプローチが有効であることを示している。
論文 参考訳(メタデータ) (2020-06-05T00:25:33Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。