論文の概要: Hyperbolic Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2210.01542v1
- Date: Tue, 4 Oct 2022 12:03:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-05 13:32:00.915538
- Title: Hyperbolic Deep Reinforcement Learning
- Title(参考訳): 双曲的深層強化学習
- Authors: Edoardo Cetin, Benjamin Chamberlain, Michael Bronstein, Jonathan J
Hunt
- Abstract要約: 双曲空間における潜在表現をモデル化する深層強化学習アルゴリズムを提案する。
Procgen と Atari 100K ベンチマークで一般的なオンライン RL アルゴリズムに適用することで,我々のフレームワークを実証的に検証する。
- 参考スコア(独自算出の注目度): 8.983647543608226
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a new class of deep reinforcement learning (RL) algorithms that
model latent representations in hyperbolic space. Sequential decision-making
requires reasoning about the possible future consequences of current behavior.
Consequently, capturing the relationship between key evolving features for a
given task is conducive to recovering effective policies. To this end,
hyperbolic geometry provides deep RL models with a natural basis to precisely
encode this inherently hierarchical information. However, applying existing
methodologies from the hyperbolic deep learning literature leads to fatal
optimization instabilities due to the non-stationarity and variance
characterizing RL gradient estimators. Hence, we design a new general method
that counteracts such optimization challenges and enables stable end-to-end
learning with deep hyperbolic representations. We empirically validate our
framework by applying it to popular on-policy and off-policy RL algorithms on
the Procgen and Atari 100K benchmarks, attaining near universal performance and
generalization benefits. Given its natural fit, we hope future RL research will
consider hyperbolic representations as a standard tool.
- Abstract(参考訳): 双曲空間における潜在表現をモデル化する新しいクラス深部強化学習(RL)アルゴリズムを提案する。
逐次的な意思決定は、現在の行動の将来の結果について推論を必要とする。
その結果、与えられたタスクの重要な進化する特徴間の関係をキャプチャすることで、効果的なポリシーを回復することができる。
この目的のために、双曲幾何学は、本質的に階層的な情報を正確にエンコードする自然基礎を持つ深いrlモデルを提供する。
しかしながら、双曲的深層学習文献から既存の手法を適用すると、rl勾配推定器を特徴付ける非定常性と分散による致命的な最適化不安定性が生じる。
そこで我々は,このような最適化課題に対処し,深い双曲表現を持つ安定したエンドツーエンド学習を可能にする新しい一般手法を設計する。
本稿では, Procgen と Atari 100K ベンチマークを用いて,人気の高いオンライン RL アルゴリズムに適用することにより,我々のフレームワークを実証的に検証する。
自然な適合性を考えると、今後RL研究は双曲表現を標準ツールとして検討することを願っている。
関連論文リスト
- Complexity-Aware Deep Symbolic Regression with Robust Risk-Seeking Policy Gradients [20.941908494137806]
本稿では,データ駆動型数式発見の堅牢性と解釈可能性を高めるための,新しい記号回帰手法を提案する。
DSRは最先端の手法であるDSRの成功にもかかわらず、リカレントニューラルネットワーク上に構築されており、純粋にデータ適合性によってガイドされている。
学習性能を向上させるために,トランスフォーマーとブロードスファーストサーチを併用した。
論文 参考訳(メタデータ) (2024-06-10T19:29:10Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - A Neuromorphic Architecture for Reinforcement Learning from Real-Valued
Observations [0.34410212782758043]
強化学習(RL)は複雑な環境における意思決定のための強力なフレームワークを提供する。
本稿では,実測値を用いてRL問題を解くための新しいスパイキングニューラルネットワーク(SNN)アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-07-06T12:33:34Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - Robust Reinforcement Learning using Offline Data [23.260211453437055]
我々はロバストフィットQ-Iteration (RFQI) と呼ばれる頑健な強化学習アルゴリズムを提案する。
RFQIは、最適なロバストポリシを学ぶために、オフラインデータセットのみを使用する。
我々は、RFQIが標準仮定の下でほぼ最適のロバストポリシーを学習していることを証明する。
論文 参考訳(メタデータ) (2022-08-10T03:47:45Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Text Generation with Efficient (Soft) Q-Learning [91.47743595382758]
強化学習(RL)は、任意のタスクメトリクスを報酬としてプラグインすることで、より柔軟なソリューションを提供する。
ソフトQ-ラーニングの観点からテキスト生成のための新しいRL式を導入する。
雑音/負の例から学習し、敵攻撃、即時生成など、幅広いタスクにアプローチを適用する。
論文 参考訳(メタデータ) (2021-06-14T18:48:40Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - Nested-Wasserstein Self-Imitation Learning for Sequence Generation [158.19606942252284]
分布意味マッチングのためのネスト・ワッサーシュタイン距離の概念を提案する。
ネストされたワッサーシュタインの自己想像学習フレームワークを開発し、歴史ある高次列を利用するようモデルに奨励する。
論文 参考訳(メタデータ) (2020-01-20T02:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。