論文の概要: Using Generative Adversarial Nets on Atari Games for Feature Extraction
in Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.02762v1
- Date: Mon, 6 Apr 2020 15:46:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 05:34:20.081862
- Title: Using Generative Adversarial Nets on Atari Games for Feature Extraction
in Deep Reinforcement Learning
- Title(参考訳): 深層強化学習における特徴抽出のためのアタリゲーム生成逆ネットの利用
- Authors: Ayberk Ayd{\i}n and Elif Surer
- Abstract要約: Deep Reinforcement Learning (DRL)は、ロボットナビゲーションやビデオゲームの自動プレイなど、いくつかの研究領域で成功している。
この要件の主な理由は、疎結合で遅延した報酬が、ディープニューラルネットワークの表現学習に効果的な監督を提供していないことである。
本研究では,PPOアルゴリズムをGAN(Generative Adrial Networks)で拡張し,ネットワークを介さずに効率的な表現を学習させることにより,サンプル効率を向上させる。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep Reinforcement Learning (DRL) has been successfully applied in several
research domains such as robot navigation and automated video game playing.
However, these methods require excessive computation and interaction with the
environment, so enhancements on sample efficiency are required. The main reason
for this requirement is that sparse and delayed rewards do not provide an
effective supervision for representation learning of deep neural networks. In
this study, Proximal Policy Optimization (PPO) algorithm is augmented with
Generative Adversarial Networks (GANs) to increase the sample efficiency by
enforcing the network to learn efficient representations without depending on
sparse and delayed rewards as supervision. The results show that an increased
performance can be obtained by jointly training a DRL agent with a GAN
discriminator.
----
Derin Pekistirmeli Ogrenme, robot navigasyonu ve otomatiklestirilmis video
oyunu oynama gibi arastirma alanlarinda basariyla uygulanmaktadir. Ancak,
kullanilan yontemler ortam ile fazla miktarda etkilesim ve hesaplama
gerektirmekte ve bu nedenle de ornek verimliligi yonunden iyilestirmelere
ihtiyac duyulmaktadir. Bu gereksinimin en onemli nedeni, gecikmeli ve seyrek
odul sinyallerinin derin yapay sinir aglarinin etkili betimlemeler
ogrenebilmesi icin yeterli bir denetim saglayamamasidir. Bu calismada,
Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile
desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine
bagimli olmaksizin etkili betimlemeler ogrenmesi tesvik edilmektedir. Elde
edilen sonuclar onerilen algoritmanin ornek verimliliginde artis elde ettigini
gostermektedir.
- Abstract(参考訳): Deep Reinforcement Learning (DRL)は、ロボットナビゲーションやビデオゲームの自動プレイなど、いくつかの研究領域で成功している。
しかし,これらの手法は過剰な計算と環境との相互作用を必要とするため,サンプル効率の向上が必要である。
この要件の主な理由は、スパースと遅延報酬がディープニューラルネットワークの表現学習の効果的な監督を提供していないためである。
本研究では,近位政策最適化(ppo)アルゴリズムにgan(generative adversarial network)を付加することで,ネットワークにスパースや遅延報酬に頼らずに効率的な表現を学習させることにより,サンプル効率を向上させる。
その結果, DRL剤とGAN判別器を併用することにより, 高い性能が得られることがわかった。
--derin pekistirmeli ogrenme, robot navigasyonu ve otomatiklestirmis video oyunu oynama gibi arastirma alanlarinda basariyla uygulanmaktadir
Ancak, Kullanilan yontemler ortam ile fazla miktarda etkilesim ve hesaplama gerektirmekte ve bu nedenle de ornek verimliligi yonunden iyilestirmelere ihtiyac duyulmaktadir。
ニデニ・ブ・ゲレクシーニミン・エネムリ・ネデニ,gecikmeli ve seyrek odul sinyallerin derin yapay sinir aglarinin etkili betimlemeler ogrenebilmesi icin yeterli bir denetim saglayamamasidir
Bu calismada, Proksimal Politika Optimizasyonu algoritmasi Uretici Cekismeli Aglar (UCA) ile desteklenerek derin yapay sinir aglarinin seyrek ve gecikmeli odul sinyallerine bagimli olmaksizin etkili betimlemeler ogrenmesi tesilmektedir
Elde edilen sonuclar onerilen algoritmanin ornek verimliliginde artis elde ettigini gostermektedir。
関連論文リスト
- Neural Network Compression for Reinforcement Learning Tasks [1.0124625066746595]
ロボット工学などの強化学習(RL)の実応用では、低レイテンシとエネルギー効率の推論が非常に望ましい。
ニューラルネット推論の最適化、特にエネルギーと遅延効率を改善するために、スパーシリティとプルーニングを使用することは、標準的なテクニックである。
本研究では、異なるRL環境におけるRLアルゴリズムに対するこれらの最適化手法の適用を系統的に検討し、ニューラルネットワークのサイズを最大400倍に削減する。
論文 参考訳(メタデータ) (2024-05-13T13:46:02Z) - SERL: A Software Suite for Sample-Efficient Robotic Reinforcement
Learning [85.21378553454672]
筆者らは,報酬の計算と環境のリセットを行う手法とともに,効率的なオフ・ポリティクス・ディープ・RL法を含むライブラリを開発した。
我々は,PCBボードアセンブリ,ケーブルルーティング,オブジェクトの移動に関するポリシを,非常に効率的な学習を実現することができることを発見した。
これらの政策は完全な成功率またはほぼ完全な成功率、摂動下でさえ極端な堅牢性を実現し、突発的な堅牢性回復と修正行動を示す。
論文 参考訳(メタデータ) (2024-01-29T10:01:10Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Semantic-Aware Collaborative Deep Reinforcement Learning Over Wireless
Cellular Networks [82.02891936174221]
複数のエージェントが無線ネットワーク上で協調できるコラボレーティブディープ強化学習(CDRL)アルゴリズムは有望なアプローチである。
本稿では,リソース制約のある無線セルネットワーク上で,意味的にリンクされたDRLタスクを持つ未学習エージェントのグループを効率的に協調させる,新しい意味認識型CDRL手法を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:24:47Z) - Accelerating Robotic Reinforcement Learning via Parameterized Action
Primitives [92.0321404272942]
強化学習は汎用ロボットシステムの構築に使用することができる。
しかし、ロボット工学の課題を解決するためにRLエージェントを訓練することは依然として困難である。
本研究では,ロボット行動プリミティブ(RAPS)のライブラリを手動で指定し,RLポリシーで学習した引数をパラメータ化する。
動作インターフェースへの簡単な変更は、学習効率とタスクパフォーマンスの両方を大幅に改善する。
論文 参考訳(メタデータ) (2021-10-28T17:59:30Z) - A Distributed Deep Reinforcement Learning Technique for Application
Placement in Edge and Fog Computing Environments [31.326505188936746]
フォグ/エッジコンピューティング環境において, DRL(Deep Reinforcement Learning)に基づく配置技術が提案されている。
IMPortance weighted Actor-Learner Architectures (IMPALA) に基づくアクタ批判に基づく分散アプリケーション配置手法を提案する。
論文 参考訳(メタデータ) (2021-10-24T11:25:03Z) - A Heuristically Assisted Deep Reinforcement Learning Approach for
Network Slice Placement [0.7885276250519428]
本稿では,Deep Reinforcement Learning(DRL)に基づくハイブリッド配置ソリューションと,Power of Two Choices原則に基づく専用最適化を提案する。
提案したHuristically-Assisted DRL (HA-DRL) は,他の最先端手法と比較して学習プロセスの高速化と資源利用の促進を可能にする。
論文 参考訳(メタデータ) (2021-05-14T10:04:17Z) - Deep Reinforcement Learning with Population-Coded Spiking Neural Network
for Continuous Control [0.0]
深層強化学習(DRL)を用いた深層批評家ネットワークと連携して訓練された集団符号化スパイキングアクターネットワーク(PopSAN)を提案する。
我々は、トレーニング済みのPopSANをIntelのLoihiニューロモルフィックチップにデプロイし、本手法をメインストリームのDRLアルゴリズムと比較し、連続的な制御を行った。
本研究はニューロモルフィックコントローラの効率性をサポートし,エネルギー効率とロバスト性の両方が重要である場合,我々のハイブリッドRLをディープラーニングの代替として提案する。
論文 参考訳(メタデータ) (2020-10-19T16:20:45Z) - ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks [63.91384986073851]
オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
論文 参考訳(メタデータ) (2020-07-27T09:01:22Z) - Can Increasing Input Dimensionality Improve Deep Reinforcement Learning? [15.578423102700764]
本稿では,ニューラルネットを用いたオンライン特徴抽出ネットワーク(OFENet)を提案する。
我々はRLエージェントが低次元状態観測よりも高次元表現でより効率的に学習できることを示す。
論文 参考訳(メタデータ) (2020-03-03T16:52:05Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。