論文の概要: Quasimetric Value Functions with Dense Rewards
- arxiv url: http://arxiv.org/abs/2409.08724v1
- Date: Fri, 13 Sep 2024 11:26:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-16 16:58:47.399658
- Title: Quasimetric Value Functions with Dense Rewards
- Title(参考訳): ディエンスリワードを持つ擬似値関数
- Authors: Khadichabonu Valieva, Bikramjit Banerjee,
- Abstract要約: 準計量的ビズ(三角形の不等式)の鍵となる性質は、密度の高い報酬設定の下で保存されることを示す。
この条件を満たす厳密な報酬関数は、サンプルの複雑さを改善、悪化させることなく改善することができる。
これにより、効率の良いニューラルネットワークを高い報酬でトレーニングする機会が開かれ、そのメリットを複雑さのサンプリングに生かしている。
- 参考スコア(独自算出の注目度): 1.6574413179773761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As a generalization of reinforcement learning (RL) to parametrizable goals, goal conditioned RL (GCRL) has a broad range of applications, particularly in challenging tasks in robotics. Recent work has established that the optimal value function of GCRL $Q^\ast(s,a,g)$ has a quasimetric structure, leading to targetted neural architectures that respect such structure. However, the relevant analyses assume a sparse reward setting -- a known aggravating factor to sample complexity. We show that the key property underpinning a quasimetric, viz., the triangle inequality, is preserved under a dense reward setting as well. Contrary to earlier findings where dense rewards were shown to be detrimental to GCRL, we identify the key condition necessary for triangle inequality. Dense reward functions that satisfy this condition can only improve, never worsen, sample complexity. This opens up opportunities to train efficient neural architectures with dense rewards, compounding their benefits to sample complexity. We evaluate this proposal in 12 standard benchmark environments in GCRL featuring challenging continuous control tasks. Our empirical results confirm that training a quasimetric value function in our dense reward setting indeed outperforms training with sparse rewards.
- Abstract(参考訳): パラメトリザブルゴールへの強化学習(RL)の一般化として、ゴール条件付きRL(GCRL)は、特にロボット工学における挑戦的なタスクにおいて幅広い用途を持つ。
近年の研究では、GCRL $Q^\ast(s,a,g)$の最適値関数が準計量構造を持ち、そのような構造を尊重する標的となるニューラルネットワークが確立されている。
しかし、関連する分析では、複雑さをサンプリングする既知の増進因子であるスパース報酬設定を仮定している。
準計量的ビズ(三角形の不等式)の鍵となる性質は、密度の高い報酬設定の下でも保存されることを示す。
GCRLに重み付けされた報酬が有害であることを示す以前の知見とは対照的に,三角不等式に必要となる重要な条件を同定した。
この条件を満たす厳密な報酬関数は、サンプルの複雑さを改善、悪化させることなく改善することができる。
これにより、効率の良いニューラルネットワークを高い報酬でトレーニングする機会が開かれ、そのメリットを複雑さのサンプリングに生かしている。
我々は,この提案をGCRLの12の標準ベンチマーク環境において,挑戦的な連続制御タスクを特徴とする評価を行った。
実験結果から,厳密な報酬設定における擬似値関数のトレーニングは,スパース報酬によるトレーニングよりも優れていたことが確認された。
関連論文リスト
- OGBench: Benchmarking Offline Goal-Conditioned RL [72.00291801676684]
オフライン目標条件強化学習(GCRL)は強化学習における大きな問題である。
オフラインゴール条件RLにおけるアルゴリズム研究のための,新しい高品質なベンチマークであるOGBenchを提案する。
論文 参考訳(メタデータ) (2024-10-26T06:06:08Z) - Uncertainty-Aware Reward-Free Exploration with General Function Approximation [69.27868448449755]
本稿では、algと呼ばれる報酬のない強化学習アルゴリズムを提案する。
私たちのアルゴリズムの背後にある重要なアイデアは、環境を探索する上で不確実性を認識した本質的な報酬である。
実験の結果、GFA-RFEは最先端の教師なしRLアルゴリズムよりも優れ、あるいは同等であることがわかった。
論文 参考訳(メタデータ) (2024-06-24T01:37:18Z) - The Effective Horizon Explains Deep RL Performance in Stochastic Environments [21.148001945560075]
強化学習(Reinforcement Learning, RL)理論は、最小の複雑性サンプル境界の証明に重点を置いている。
本稿では,RLアルゴリズムSQIRLを提案する。このアルゴリズムはランダムに探索してロールアウトを収集することで,最適に近いポリシーを反復的に学習する。
我々は、SQIRLを利用して、指数的に「効果的な地平線」のルックアヘッドにのみ現れるRLのインスタンス依存のサンプル複雑性境界を導出し、近似に使用されるクラスの複雑性を導出する。
論文 参考訳(メタデータ) (2023-12-13T18:58:56Z) - Deep Reinforcement Learning from Hierarchical Preference Design [99.46415116087259]
本稿では,特定の構造を利用することにより,報酬設計プロセスの容易性を示す。
シナリオのための階層的な報酬モデリングフレームワーク -- HERONを提案する。 (I) フィードバック信号は自然に階層構造を呈し、 (II) 報酬は希少であるが、政策学習を支援するためにあまり重要でないサロゲートフィードバックを持つ。
論文 参考訳(メタデータ) (2023-09-06T00:44:29Z) - Provably Feedback-Efficient Reinforcement Learning via Active Reward
Learning [26.067411894141863]
報酬関数は、強化学習(RL)における課題を特定する上で、最重要である。
HiL(Human-in-the-loop) RLは、さまざまなフィードバックを提供することで、複雑な目標をRLエージェントに伝達することを可能にする。
報奨関数を指定せずに環境を探索する能動的学習に基づくRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-18T12:36:09Z) - Reward Learning as Doubly Nonparametric Bandits: Optimal Design and
Scaling Laws [22.099915149343957]
本稿では、報酬学習と関連する最適実験設計問題を研究するための理論的枠組みを提案する。
まず、リッジ回帰に基づく単純なプラグイン推定器の非漸近的過剰リスク境界を導出する。
次に、クエリセットの選択に関してこれらのリスク境界を最適化し、有限サンプル統計率を得ることにより、クエリ設計問題を解決する。
論文 参考訳(メタデータ) (2023-02-23T22:07:33Z) - Metric Residual Networks for Sample Efficient Goal-conditioned
Reinforcement Learning [52.59242013527014]
ゴール条件強化学習(GCRL)は、現実世界の幅広い応用の可能性を秘めている。
サンプル効率は、GCRLにとって最も重要であり、デフォルトでは、エージェントはその目標に達するとのみ報酬を受ける。
GCRLのための新しいニューラルアーキテクチャを導入し、一般的なモノリシックネットワークアーキテクチャよりもはるかに優れたサンプリング効率を実現する。
論文 参考訳(メタデータ) (2022-08-17T08:04:41Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - On Function Approximation in Reinforcement Learning: Optimism in the
Face of Large State Spaces [208.67848059021915]
強化学習のコアにおける探索・探索トレードオフについて検討する。
特に、関数クラス $mathcalF$ の複雑さが関数の複雑さを特徴づけていることを証明する。
私たちの後悔の限界はエピソードの数とは無関係です。
論文 参考訳(メタデータ) (2020-11-09T18:32:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。