論文の概要: Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning
- arxiv url: http://arxiv.org/abs/2111.03189v1
- Date: Thu, 4 Nov 2021 22:46:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-09 01:48:07.107337
- Title: Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning
- Title(参考訳): 値関数空間:ロングホリゾン推論のためのスキル中心状態抽象化
- Authors: Dhruv Shah, Peng Xu, Yao Lu, Ted Xiao, Alexander Toshev, Sergey
Levine, Brian Ichter
- Abstract要約: 強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
- 参考スコア(独自算出の注目度): 120.38381203153159
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning can train policies that effectively perform complex
tasks. However for long-horizon tasks, the performance of these methods
degrades with horizon, often necessitating reasoning over and composing
lower-level skills. Hierarchical reinforcement learning aims to enable this by
providing a bank of low-level skills as action abstractions. Hierarchies can
further improve on this by abstracting the space states as well. We posit that
a suitable state abstraction should depend on the capabilities of the available
lower-level policies. We propose Value Function Spaces: a simple approach that
produces such a representation by using the value functions corresponding to
each lower-level skill. These value functions capture the affordances of the
scene, thus forming a representation that compactly abstracts task relevant
information and robustly ignores distractors. Empirical evaluations for
maze-solving and robotic manipulation tasks demonstrate that our approach
improves long-horizon performance and enables better zero-shot generalization
than alternative model-free and model-based methods.
- Abstract(参考訳): 強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
しかし、長期的タスクでは、これらの手法の性能は水平線とともに劣化し、しばしば推論と下層技術の構築を必要としている。
階層的な強化学習は、アクション抽象化として低レベルのスキルのバンクを提供することによって、これを実現することを目的としています。
階層は空間状態も抽象化することでさらに改善することができる。
適切な状態抽象化は、利用可能な低レベルのポリシーの能力に依存するべきであると仮定する。
本稿では,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法を提案する。
これらの値関数はシーンの余裕を捉え、タスクに関連する情報をコンパクトに抽象化し、邪魔者をしっかりと無視する表現を形成する。
迷路解法とロボット操作タスクの実証評価により,本手法は長水平性能を向上し,代替のモデルフリーやモデルベース手法よりもゼロショットの一般化が可能であることを実証した。
関連論文リスト
- Efficient Exploration and Discriminative World Model Learning with an Object-Centric Abstraction [19.59151245929067]
エージェントにオブジェクト中心のマッピング(アイテムとその属性のセットを記述する)を与えることで、より効率的な学習が可能になるかどうかを検討する。
この問題は、ピクセルへの高レベルの状態抽象化でアイテムをモデル化することで、階層的に最もよく解決されている。
我々はこの手法を用いて、差別的な世界モデルを学ぶ完全モデルベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-08-21T17:59:31Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Hierarchical Imitation Learning with Vector Quantized Models [77.67190661002691]
我々は,専門家の軌跡におけるサブゴールの同定に強化学習を用いることを提案する。
同定されたサブゴールに対するベクトル量子化生成モデルを構築し,サブゴールレベルの計画を行う。
実験では、このアルゴリズムは複雑な長い水平決定問題の解法に優れ、最先端のアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2023-01-30T15:04:39Z) - Possibility Before Utility: Learning And Using Hierarchical Affordances [21.556661319375255]
強化学習アルゴリズムは複雑な階層的依存構造を持つタスクに苦労する。
本稿では、より効果的な学習のために不可能なサブタスクを実践するために、階層的アフォーマンス学習(HAL)という階層的アフォーマンス学習(HAL)を提案する。
論文 参考訳(メタデータ) (2022-03-23T19:17:22Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - Learning Transferable Motor Skills with Hierarchical Latent Mixture
Policies [37.09286945259353]
階層的混合潜時変動モデルを用いて,データから抽象運動スキルを学習する手法を提案する。
提案手法は,オフラインデータを異なる実行動作に効果的にクラスタ化することができることを示す。
論文 参考訳(メタデータ) (2021-12-09T17:37:14Z) - Hierarchical Skills for Efficient Exploration [70.62309286348057]
強化学習において、事前訓練された低レベルスキルは、探索を大幅に促進する可能性がある。
下流タスクの以前の知識は、スキルデザインにおける一般性(きめ細かい制御)と特異性(より高速な学習)の適切なバランスをとるために必要である。
教師なしの方法で様々な複雑さのスキルを習得する階層的スキル学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T22:29:32Z) - Landmark Policy Optimization for Object Navigation Task [77.34726150561087]
本研究は,未確認環境において,与えられたセマンティックカテゴリに関連する最も近いオブジェクトにナビゲートするオブジェクトゴールナビゲーションタスクについて研究する。
最近の研究は、エンドツーエンドの強化学習アプローチとモジュールシステムの両方において大きな成果を上げていますが、堅牢で最適なものにするには大きな前進が必要です。
本稿では,これらのランドマークを抽出する手法として,標準的なタスクの定式化とランドマークとしての付加的な地域知識を取り入れた階層的手法を提案する。
論文 参考訳(メタデータ) (2021-09-17T12:28:46Z) - Low-Dimensional State and Action Representation Learning with MDP
Homomorphism Metrics [1.5293427903448022]
深層強化学習(Deep Reinforcement Learning)は、高次元観察から直接複雑な問題を解く能力を示している。
エンドツーエンドの設定では、強化学習アルゴリズムはサンプリング効率が良くなく、長いトレーニング時間と大量のデータを必要とする。
状態と行動表現を利用して高次元問題を低次元に変換するサンプル効率強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T16:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。