論文の概要: Autonomous Option Invention for Continual Hierarchical Reinforcement Learning and Planning
- arxiv url: http://arxiv.org/abs/2412.16395v1
- Date: Fri, 20 Dec 2024 23:04:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:59:27.243201
- Title: Autonomous Option Invention for Continual Hierarchical Reinforcement Learning and Planning
- Title(参考訳): 継続的階層的強化学習と計画のための自律的なオプション発明
- Authors: Rashmeet Kaur Nayyar, Siddharth Srivastava,
- Abstract要約: 本稿では,選択肢を考案し,表現し,活用するための新しいアプローチを提案する。
我々のアプローチは、長い地平線、スパース報酬、未知の遷移と報酬関数によって特徴づけられる問題に対処する。
我々の主な貢献は、シンボル表現を伴う移動可能で一般化可能な選択肢を継続的に学習するためのアプローチである。
- 参考スコア(独自算出の注目度): 21.737035951695887
- License:
- Abstract: Abstraction is key to scaling up reinforcement learning (RL). However, autonomously learning abstract state and action representations to enable transfer and generalization remains a challenging open problem. This paper presents a novel approach for inventing, representing, and utilizing options, which represent temporally extended behaviors, in continual RL settings. Our approach addresses streams of stochastic problems characterized by long horizons, sparse rewards, and unknown transition and reward functions. Our approach continually learns and maintains an interpretable state abstraction, and uses it to invent high-level options with abstract symbolic representations. These options meet three key desiderata: (1) composability for solving tasks effectively with lookahead planning, (2) reusability across problem instances for minimizing the need for relearning, and (3) mutual independence for reducing interference among options. Our main contributions are approaches for continually learning transferable, generalizable options with symbolic representations, and for integrating search techniques with RL to efficiently plan over these learned options to solve new problems. Empirical results demonstrate that the resulting approach effectively learns and transfers abstract knowledge across problem instances, achieving superior sample efficiency compared to state-of-the-art methods.
- Abstract(参考訳): 抽象化は強化学習(RL)のスケールアップの鍵となる。
しかし、移動と一般化を可能にする抽象状態と行動表現を自律的に学習することは、依然として困難な問題である。
本稿では、連続RL設定において、時間的に拡張された動作を表すオプションを発明し、表現し、活用するための新しいアプローチを提案する。
我々のアプローチは、長い地平線、スパース報酬、未知の遷移と報酬関数によって特徴づけられる確率的問題のストリームに対処する。
我々のアプローチは、解釈可能な状態抽象化を継続的に学習し、維持し、抽象的なシンボル表現で高レベルなオプションを発明する。
これらの選択肢は,(1)ルックアヘッド計画でタスクを効果的に解決するための構成可能性,(2)再学習の必要性を最小限に抑えるための問題インスタンス間の再利用可能性,(3)選択肢間の干渉を減らすための相互独立性という,3つの重要なデシダータを満たす。
我々の主な貢献は、伝達可能で一般化可能な選択肢をシンボル表現で継続的に学習し、検索技術をRLと統合し、これらの選択肢を効率的に計画し、新しい問題を解決するためのアプローチである。
実験結果から,提案手法は問題事例間の抽象的知識を効果的に学習し,伝達し,最先端の手法よりも優れたサンプル効率を実現することを示した。
関連論文リスト
- Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Building Minimal and Reusable Causal State Abstractions for
Reinforcement Learning [63.58935783293342]
Causal Bisimulation Modeling (CBM) は、各タスクのダイナミクスと報酬関数の因果関係を学習し、最小限のタスク固有の抽象化を導出する手法である。
CBMの学習された暗黙的ダイナミクスモデルは、明確なものよりも根底にある因果関係と状態抽象化を正確に識別する。
論文 参考訳(メタデータ) (2024-01-23T05:43:15Z) - Reconciling Spatial and Temporal Abstractions for Goal Representation [0.4813333335683418]
ゴール表現は階層強化学習(HRL)アルゴリズムの性能に影響する。
近年の研究では、時間的に抽象的な環境動態を保った表現が困難な問題の解決に成功していることが示されている。
本稿では,空間的および時間的目標抽象化の両方において,階層の異なるレベルにおいて,新しい3層HRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-18T10:33:30Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Learning Abstract and Transferable Representations for Planning [25.63560394067908]
本稿では,エージェントの環境状態の抽象化を自律的に学習するフレームワークを提案する。
これらの抽象化はタスクに依存しないので、新しいタスクを解決するために再利用することができる。
本稿では,これらの可搬型表現と問題固有の表現を組み合わせて,特定のタスクの音響記述を生成する方法について述べる。
論文 参考訳(メタデータ) (2022-05-04T14:40:04Z) - Temporal Abstractions-Augmented Temporally Contrastive Learning: An
Alternative to the Laplacian in RL [140.12803111221206]
強化学習において、ラプラシアングラフはタスク非依存の設定において貴重なツールであることが証明されている。
そこで本研究では,非一様優先度設定において,ラプラシアン表現の表現性および所望の性質を回復可能な代替手法を提案する。
非一様条件のラプラシアンの代替として成功し、連続的な制御環境に挑戦する。
論文 参考訳(メタデータ) (2022-03-21T22:07:48Z) - A Theory of Abstraction in Reinforcement Learning [18.976500531441346]
この論文では、強化学習における抽象論について述べる。
最初に、抽象化のプロセスを実行する関数に対して、3つのdesiderataを提供します。
次に、エージェントがこれらのデシダータに従って抽象化を学習する方法を明確にする、新しいアルゴリズムと分析のスイートを提示します。
論文 参考訳(メタデータ) (2022-03-01T12:46:28Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Exploratory State Representation Learning [63.942632088208505]
本稿では,XSRL(eXploratory State Representation Learning)と呼ばれる新しい手法を提案する。
一方、コンパクトな状態表現と、その表現から不可解な情報を除去するために使用される状態遷移推定器を共同で学習する。
一方、逆モデルを継続的に訓練し、このモデルの予測誤差に$k$-stepの学習促進ボーナスを加え、発見ポリシーの目的を形成する。
論文 参考訳(メタデータ) (2021-09-28T10:11:07Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。