論文の概要: Epistemically-guided forward-backward exploration
- arxiv url: http://arxiv.org/abs/2507.05477v1
- Date: Mon, 07 Jul 2025 21:09:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.346313
- Title: Epistemically-guided forward-backward exploration
- Title(参考訳): エピステマティックガイダンスによる前方探査
- Authors: Núria Armengol Urpí, Marin Vlastelica, Georg Martius, Stelian Coros,
- Abstract要約: 報酬のない最適政策を学習するための有望な方法として、フォワード・バックワード表現(FB)が出現している。
我々は、より効率的に学習するために、FB表現は基本的に探索に使用されるべきであると論じる。
- 参考スコア(独自算出の注目度): 37.49825422868874
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot reinforcement learning is necessary for extracting optimal policies in absence of concrete rewards for fast adaptation to future problem settings. Forward-backward representations (FB) have emerged as a promising method for learning optimal policies in absence of rewards via a factorization of the policy occupancy measure. However, up until now, FB and many similar zero-shot reinforcement learning algorithms have been decoupled from the exploration problem, generally relying on other exploration algorithms for data collection. We argue that FB representations should fundamentally be used for exploration in order to learn more efficiently. With this goal in mind, we design exploration policies that arise naturally from the FB representation that minimize the posterior variance of the FB representation, hence minimizing its epistemic uncertainty. We empirically demonstrate that such principled exploration strategies improve sample complexity of the FB algorithm considerably in comparison to other exploration methods. Code is publicly available at https://sites.google.com/view/fbee-url.
- Abstract(参考訳): ゼロショット強化学習は、将来の問題設定に迅速に適応するための具体的な報酬がない場合に最適なポリシーを抽出するために必要である。
FB(Forward-backward representations)は、政策占有率の因子化を通じて報酬のない最適政策を学ぶための有望な方法として登場した。
しかし、これまでFBや同様のゼロショット強化学習アルゴリズムは、探索問題から切り離され、一般的にデータ収集の他の探索アルゴリズムに依存してきた。
我々は、より効率的に学習するために、FB表現は基本的に探索に使用されるべきであると論じる。
この目標を念頭に、FB表現から自然に生じる探索ポリシーを設計し、FB表現の後方分散を最小化し、したがって、その疫学的不確実性を最小化する。
このような探索手法により,他の探索手法と比較して,FBアルゴリズムのサンプリング複雑性が著しく向上することが実証的に実証された。
コードはhttps://sites.google.com/view/fbee-url.comで公開されている。
関連論文リスト
- A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Jump-Start Reinforcement Learning [68.82380421479675]
本稿では、オフラインデータやデモ、あるいは既存のポリシーを使ってRLポリシーを初期化するメタアルゴリズムを提案する。
特に,タスク解決に2つのポリシーを利用するアルゴリズムであるJump-Start Reinforcement Learning (JSRL)を提案する。
実験により、JSRLは既存の模倣と強化学習アルゴリズムを大幅に上回っていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:25:22Z) - Dimensionality Reduction and Prioritized Exploration for Policy Search [29.310742141970394]
Black-boxポリシー最適化は、パラメータレベルでポリシーを探索し更新する強化学習アルゴリズムのクラスである。
本稿では,有効パラメータの探索を優先し,完全共分散行列更新に対処する新しい手法を提案する。
我々のアルゴリズムは最近の手法よりも速く学習し、最先端の結果を得るためにはサンプルを少なくする。
論文 参考訳(メタデータ) (2022-03-09T15:17:09Z) - Robust Predictable Control [149.71263296079388]
提案手法は,従来の手法よりもはるかに厳密な圧縮を実現し,標準的な情報ボトルネックよりも最大5倍高い報酬が得られることを示す。
また,本手法はより堅牢で,新しいタスクをより一般化したポリシーを学習することを示す。
論文 参考訳(メタデータ) (2021-09-07T17:29:34Z) - Optimization Algorithm for Feedback and Feedforward Policies towards
Robot Control Robust to Sensing Failures [1.7970523486905976]
両FB/FFポリシーを同時に最適化するための新しい最適化問題を提案する。
数値シミュレーションとロボット実験において,従来のRLと異なる学習法則を用いても,提案手法が安定して構成ポリシーを最適化できることを確認した。
論文 参考訳(メタデータ) (2021-04-01T10:41:42Z) - Policy Augmentation: An Exploration Strategy for Faster Convergence of
Deep Reinforcement Learning Algorithms [0.0]
本稿では,政策拡張(Policy Augmentation)と呼ばれる革命的アルゴリズムを紹介する。
ポリシー強化は、新しく開発された帰納的行列補完法に基づいている。
提案アルゴリズムは、探索されていない状態-作用ペアの値を増大させ、エージェントが初期エピソードにいる間、エージェントが高値のリターンをもたらすアクションを行うのを助ける。
論文 参考訳(メタデータ) (2021-02-10T03:51:45Z) - Reannealing of Decaying Exploration Based On Heuristic Measure in Deep
Q-Network [82.20059754270302]
本稿では,再熱処理の概念に基づくアルゴリズムを提案し,必要なときにのみ探索を促進することを目的とする。
我々は、訓練を加速し、より良い政策を得る可能性を示す実証的なケーススタディを実施している。
論文 参考訳(メタデータ) (2020-09-29T20:40:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。