論文の概要: Randomized Value Functions via Posterior State-Abstraction Sampling
- arxiv url: http://arxiv.org/abs/2010.02383v2
- Date: Thu, 17 Jun 2021 17:33:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-10 19:54:23.445907
- Title: Randomized Value Functions via Posterior State-Abstraction Sampling
- Title(参考訳): 後方アブストラクションサンプリングによる無作為値関数
- Authors: Dilip Arumugam and Benjamin Van Roy
- Abstract要約: 我々は、潜在タスク構造を探究するエージェントは、その構造に対する不確実性を明確に表現し、維持する必要があると論じる。
本稿では、状態抽象化と抽象状態値の2つの後続分布を用いて、これを実現するための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、マルチタスク設定でかなりのパフォーマンス向上が得られます。
- 参考スコア(独自算出の注目度): 21.931580762349096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State abstraction has been an essential tool for dramatically improving the
sample efficiency of reinforcement-learning algorithms. Indeed, by exposing and
accentuating various types of latent structure within the environment,
different classes of state abstraction have enabled improved theoretical
guarantees and empirical performance. When dealing with state abstractions that
capture structure in the value function, however, a standard assumption is that
the true abstraction has been supplied or unrealistically computed a priori,
leaving open the question of how to efficiently uncover such latent structure
while jointly seeking out optimal behavior. Taking inspiration from the bandit
literature, we propose that an agent seeking out latent task structure must
explicitly represent and maintain its uncertainty over that structure as part
of its overall uncertainty about the environment. We introduce a practical
algorithm for doing this using two posterior distributions over state
abstractions and abstract-state values. In empirically validating our approach,
we find that substantial performance gains lie in the multi-task setting where
tasks share a common, low-dimensional representation.
- Abstract(参考訳): 状態抽象化は強化学習アルゴリズムのサンプル効率を劇的に向上させる上で不可欠なツールである。
実際、環境内の様々なタイプの潜伏構造を露出・アクセントすることで、様々な状態抽象化のクラスが理論的保証と経験的性能を改善した。
しかし、バリュー関数で構造をキャプチャする状態抽象を扱う場合、標準的な仮定は、真の抽象化が前もって提供されたり、非現実的に計算されたというものである。
バンディット文学からインスピレーションを得て,潜在タスク構造を求めるエージェントは,その環境に関する全体的な不確実性の一部として,その構造に対する不確実性を明示的に表現し,維持しなければならない。
本稿では,状態抽象と抽象状態値の2つの後続分布を用いてこれを行うための実用的なアルゴリズムを提案する。
私たちのアプローチを実証的に検証すると、タスクが共通の低次元表現を共有するマルチタスク設定において、実質的なパフォーマンス向上が認められます。
関連論文リスト
- Effective Reinforcement Learning Based on Structural Information Principles [19.82391136775341]
本稿では, 効率的な意思決定・意思決定のための, 新規で汎用的な構造情報原則に基づくフレームワーク,すなわちSIDMを提案する。
SIDMは、様々な単一エージェントおよびマルチエージェントRLアルゴリズムに柔軟に組み込むことができ、その性能を向上させることができる。
論文 参考訳(メタデータ) (2024-04-15T13:02:00Z) - Consciousness-Inspired Spatio-Temporal Abstractions for Better Generalization in Reinforcement Learning [83.41487567765871]
Skipperはモデルベースの強化学習フレームワークである。
これは、与えられたタスクをより小さく、より管理しやすいサブタスクに自動的に一般化する。
環境の関連部分には、スパースな意思決定と集中した抽象化を可能にする。
論文 参考訳(メタデータ) (2023-09-30T02:25:18Z) - Hierarchical State Abstraction Based on Structural Information
Principles [70.24495170921075]
本稿では、情報理論の観点から、新しい数学的構造情報原理に基づく状態抽象化フレームワーク、すなわちSISAを提案する。
SISAは、様々な表現学習目標と柔軟に統合され、パフォーマンスをさらに向上する一般的なフレームワークである。
論文 参考訳(メタデータ) (2023-04-24T11:06:52Z) - Understanding and Constructing Latent Modality Structures in Multi-modal
Representation Learning [53.68371566336254]
優れたパフォーマンスの鍵は、完全なモダリティアライメントではなく、有意義な潜在モダリティ構造にある、と我々は主張する。
具体的には,1)モダリティ内正規化のための深い特徴分離損失,2)モダリティ間正規化のためのブラウン橋損失,3)モダリティ内正規化およびモダリティ間正規化のための幾何学的整合損失を設計する。
論文 参考訳(メタデータ) (2023-03-10T14:38:49Z) - Learning Dynamic Abstract Representations for Sample-Efficient
Reinforcement Learning [22.25237742815589]
多くの現実世界の問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。
本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。
論文 参考訳(メタデータ) (2022-10-04T23:05:43Z) - Spectral Decomposition Representation for Reinforcement Learning [100.0424588013549]
本稿では, スペクトル分解表現法(SPEDER)を提案する。この手法は, データ収集ポリシーに急激な依存を生じさせることなく, ダイナミックスから状態-作用の抽象化を抽出する。
理論的解析により、オンライン設定とオフライン設定の両方において提案アルゴリズムのサンプル効率が確立される。
実験により、いくつかのベンチマークで現在の最先端アルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-08-19T19:01:30Z) - Causal Dynamics Learning for Task-Independent State Abstraction [61.707048209272884]
タスク独立状態抽象化(CDL)のための因果ダイナミクス学習を導入する。
CDLは、状態変数とアクションの間の不要な依存関係を取り除く理論的に証明された因果ダイナミクスモデルを学ぶ。
状態抽象化は、学習されたダイナミクスから導き出すことができる。
論文 参考訳(メタデータ) (2022-06-27T17:02:53Z) - Value Function Spaces: Skill-Centric State Abstractions for Long-Horizon
Reasoning [120.38381203153159]
強化学習は、複雑なタスクを効果的に実行するポリシーを訓練することができる。
長期のタスクでは、これらのメソッドのパフォーマンスは水平線とともに劣化し、しばしば推論と下層のスキルの構築を必要とします。
そこで我々は,各下層スキルに対応する値関数を用いて,そのような表現を生成するシンプルな手法として,値関数空間を提案する。
論文 参考訳(メタデータ) (2021-11-04T22:46:16Z) - Dynamic probabilistic logic models for effective abstractions in RL [35.54018388244684]
RePReLは階層的なフレームワークであり、リレーショナルプランナーを利用して学習に有用な状態抽象化を提供する。
実験の結果,RePReLは手前のタスクに対して,優れた性能と効率的な学習を実現するだけでなく,目に見えないタスクに対するより優れた一般化も示している。
論文 参考訳(メタデータ) (2021-10-15T18:53:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。