論文の概要: Hierarchical Universal Value Function Approximators
- arxiv url: http://arxiv.org/abs/2410.08997v1
- Date: Sun, 27 Oct 2024 16:37:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 20:36:41.690761
- Title: Hierarchical Universal Value Function Approximators
- Title(参考訳): 階層的普遍値関数近似器
- Authors: Rushiv Arora,
- Abstract要約: 階層的普遍値関数近似器(H-UVFA)を導入する。
我々は,国家,目標,選択肢,行動の埋め込みを学習するための教師付き強化学習手法を開発する。
我々は,HUVFAの一般化を実証し,それに対応するUVFAよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been key advancements to building universal approximators for multi-goal collections of reinforcement learning value functions -- key elements in estimating long-term returns of states in a parameterized manner. We extend this to hierarchical reinforcement learning, using the options framework, by introducing hierarchical universal value function approximators (H-UVFAs). This allows us to leverage the added benefits of scaling, planning, and generalization expected in temporal abstraction settings. We develop supervised and reinforcement learning methods for learning embeddings of the states, goals, options, and actions in the two hierarchical value functions: $Q(s, g, o; \theta)$ and $Q(s, g, o, a; \theta)$. Finally we demonstrate generalization of the HUVFAs and show they outperform corresponding UVFAs.
- Abstract(参考訳): 強化学習値関数の多目的収集のための普遍的な近似器を構築するための重要な進歩があり、パラメータ化された方法で状態の長期的な戻りを推定する重要な要素である。
本稿では,階層的普遍値関数近似器(H-UVFA)を導入することで,階層的強化学習に拡張する。
これにより、時間的抽象化設定で期待されるスケーリング、計画、一般化のメリットを活用できます。
本研究では,2つの階層値関数($Q(s, g, o; \theta)$と$Q(s, g, o, a; \theta)$)における状態,目標,選択肢,行動の埋め込みを学習するための教師付き強化学習手法を開発した。
最後に,HUVFAの一般化を実証し,それに対応するUVFAよりも優れた性能を示す。
関連論文リスト
- A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning
with General Function Approximation [66.26739783789387]
我々は、強化学習のための新しいアルゴリズム、MQL-UCBを用いたモノトニックQ-Learningを提案する。
MQL-UCBは、$tildeO(dsqrtHK)$の最小限の後悔を実現する。
本研究は,非線形関数近似を用いたサンプル効率およびデプロイメント効率のよいQ-ラーニングの設計に重点を置いている。
論文 参考訳(メタデータ) (2023-11-26T08:31:57Z) - Future-Dependent Value-Based Off-Policy Evaluation in POMDPs [67.21319339512699]
一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。
我々は、将来のプロキシを入力として取り込む将来依存値関数を導入し、新しいモデルフリーなOPE法を開発した。
我々は,本手法をダイナミックス学習に拡張し,POMDPにおけるアプローチとよく知られたスペクトル学習手法の関連性を確立する。
論文 参考訳(メタデータ) (2022-07-26T17:53:29Z) - Orchestrated Value Mapping for Reinforcement Learning [15.000818334408805]
本稿では2つの異なる原理に基づく強化学習アルゴリズムのクラスを示す。
最初の原則は、学習を強化するための価値推定器に特定のプロパティを組み込むことを可能にする。
2つ目の原則は、値関数を複数のユーティリティ関数の合成として表すことを可能にする。
論文 参考訳(メタデータ) (2022-03-14T15:13:44Z) - On Credit Assignment in Hierarchical Reinforcement Learning [0.0]
階層強化学習(HRL)は、長年にわたって強化学習の推進を約束してきた。
例えば、1ステップの階層的なバックアップは、従来のマルチステップのバックアップとして、時間の経過とともに$n$のスキップ接続が可能であることを示す。
我々は新しい階層型アルゴリズム Hier$Q_k(lambda)$ を開発し、これは階層型クレジット代入だけでエージェントのパフォーマンスを向上できることを示す。
論文 参考訳(メタデータ) (2022-03-07T11:13:09Z) - A Generalized Bootstrap Target for Value-Learning, Efficiently Combining
Value and Feature Predictions [39.17511693008055]
値関数の推定は強化学習アルゴリズムのコアコンポーネントである。
値関数を推定する際に使用されるターゲットのブートストラップに焦点を当てる。
新たなバックアップターゲットである$eta$-returnmixを提案する。
論文 参考訳(メタデータ) (2022-01-05T21:54:55Z) - Spatio-temporal Relation Modeling for Few-shot Action Recognition [100.3999454780478]
本稿では,高次時間表現を同時に学習しながら,クラス固有の特徴の識別性を向上する数ショットアクション認識フレームワークSTRMを提案する。
本手法は,本研究でもっとも優れた手法に比べて,分類精度が3.5%向上した。
論文 参考訳(メタデータ) (2021-12-09T18:59:14Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Reinforcement Learning with General Value Function Approximation:
Provably Efficient Approach via Bounded Eluder Dimension [124.7752517531109]
一般値関数近似を用いた効率の良い強化学習アルゴリズムを確立する。
我々のアルゴリズムは、$d$が複雑性測度である場合、$widetildeO(mathrmpoly(dH)sqrtT)$の後悔の限界を達成することを示す。
我々の理論は線形値関数近似によるRLの最近の進歩を一般化し、環境モデルに対する明示的な仮定をしない。
論文 参考訳(メタデータ) (2020-05-21T17:36:09Z) - Estimating Q(s,s') with Deep Deterministic Dynamics Gradients [25.200259376015744]
ここでは、値関数の新たな形式である$Q(s, s')$を紹介します。
最適ポリシを導出するために,この値を最大化する次世代予測を学習するフォワードダイナミクスモデルを開発した。
論文 参考訳(メタデータ) (2020-02-21T19:05:24Z) - Universal Successor Features for Transfer Reinforcement Learning [77.27304854836645]
環境の基盤となるダイナミクスを捉えるために,ユニバーサル継承機能 (USF) を提案する。
時間差分法を用いて状態値の学習を行う任意のRLアルゴリズムとUSFが互換性があることを示す。
論文 参考訳(メタデータ) (2020-01-05T03:41:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。