論文の概要: Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts
- arxiv url: http://arxiv.org/abs/2208.04822v1
- Date: Tue, 9 Aug 2022 15:05:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-10 12:16:34.563539
- Title: Generalized Reinforcement Learning: Experience Particles, Action
Operator, Reinforcement Field, Memory Association, and Decision Concepts
- Title(参考訳): 一般化強化学習:経験粒子,行動演算子,強化フィールド,記憶アソシエーション,決定概念
- Authors: Po-Hsiang Chiu and Manfred Huber
- Abstract要約: 本稿では,ベイズ風の一般強化学習フレームワークを提案する。
まず,不確実性や流動挙動に対処するためのパラメトリック・アクション・モデルを構築した。
次に,学習者の作業記憶に保持される「偏極化経験粒子」によって確立された物理に着想を得た構成体として,強化場の概念を導入する。
- 参考スコア(独自算出の注目度): 2.398608007786179
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a control policy that involves time-varying and evolving system
dynamics often poses a great challenge to mainstream reinforcement learning
algorithms. In most standard methods, actions are often assumed to be a rigid,
fixed set of choices that are sequentially applied to the state space in a
predefined manner. Consequently, without resorting to substantial re-learning
processes, the learned policy lacks the ability in adapting to variations in
the action set and the action's "behavioral" outcomes. In addition, the
standard action representation and the action-induced state transition
mechanism inherently limit how reinforcement learning can be applied in
complex, real-world applications primarily due to the intractability of the
resulting large state space and the lack of facility to generalize the learned
policy to the unknown part of the state space. This paper proposes a
Bayesian-flavored generalized reinforcement learning framework by first
establishing the notion of parametric action model to better cope with
uncertainty and fluid action behaviors, followed by introducing the notion of
reinforcement field as a physics-inspired construct established through
"polarized experience particles" maintained in the learning agent's working
memory. These particles effectively encode the dynamic learning experience that
evolves over time in a self-organizing way. On top of the reinforcement field,
we will further generalize the policy learning process to incorporate
high-level decision concepts by considering the past memory as having an
implicit graph structure, in which the past memory instances (or particles) are
interconnected with similarity between decisions defined, and thereby, the
"associative memory" principle can be applied to augment the learning agent's
world model.
- Abstract(参考訳): 時間変動とシステムダイナミクスの進化を伴う制御ポリシーを学ぶことは、主流の強化学習アルゴリズムにとって大きな課題となる。
ほとんどの標準的な手法では、アクションは事前に定義された方法で状態空間に順次適用される厳格で固定された選択の集合であると仮定される。
その結果、学習方針は、実質的な再学習プロセスに頼ることなく、アクションセットのバリエーションやアクションの"行動的"な結果に適応する能力に欠ける。
さらに、標準的な行動表現と行動誘発状態遷移機構は、結果として生じる大きな状態空間の難易度と学習方針を未知の状態空間に一般化する能力の欠如により、強化学習が複雑な実世界の応用にどのように適用できるかを本質的に制限する。
本稿では,まず,不確かさや流動的行動の挙動をよりよく扱うためのパラメトリック動作モデルの概念を確立し,次いで,学習エージェントの作業記憶に保持される「分極経験粒子」によって確立された物理に触発された構成体として強化場の概念を導入することにより,ベイズ流の一般化強化学習枠組みを提案する。
これらの粒子は、時間とともに自己組織的に進化する動的学習体験を効果的にエンコードする。
強化フィールドの上に、過去のメモリインスタンス(または粒子)が定義された決定の類似性と相互に相互接続される暗黙のグラフ構造を持つものとして、過去のメモリを考慮し、高レベルの決定概念を組み込むための政策学習プロセスをさらに一般化し、学習者の世界モデルを強化するために「連想記憶」の原則を適用することができる。
関連論文リスト
- Interpretable Imitation Learning with Dynamic Causal Relations [65.18456572421702]
得られた知識を有向非巡回因果グラフの形で公開することを提案する。
また、この因果発見プロセスを状態依存的に設計し、潜在因果グラフのダイナミクスをモデル化する。
提案するフレームワークは,動的因果探索モジュール,因果符号化モジュール,予測モジュールの3つの部分から構成され,エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2023-09-30T20:59:42Z) - Safe Multi-agent Learning via Trapping Regions [89.24858306636816]
我々は、動的システムの定性理論から知られているトラップ領域の概念を適用し、分散学習のための共同戦略空間に安全セットを作成する。
本稿では,既知の学習力学を持つシステムにおいて,候補がトラップ領域を形成することを検証するための二分分割アルゴリズムと,学習力学が未知のシナリオに対するサンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-27T14:47:52Z) - Towards Task-Prioritized Policy Composition [10.477909792349823]
強化学習のためのタスク優先型合成フレームワークを提案する。
我々のフレームワークは、知識伝達とモジュラー設計を促進すると同時に、強化学習エージェントのデータ効率とデータ再利用を大幅に向上させる可能性がある。
ヌル空間制御とは異なり,本手法は,初期複合政策構築後の高次政策の無関心空間におけるオンライン学習により,複合課題に対するグローバルな最適政策の学習を可能にする。
論文 参考訳(メタデータ) (2022-09-20T08:08:04Z) - Inference of Affordances and Active Motor Control in Simulated Agents [0.5161531917413706]
本稿では,出力確率,時間的予測,モジュール型人工ニューラルネットワークアーキテクチャを提案する。
我々のアーキテクチャは、割当マップと解釈できる潜在状態が発達していることを示す。
アクティブな推論と組み合わせることで、フレキシブルでゴール指向の動作が実行可能であることを示す。
論文 参考訳(メタデータ) (2022-02-23T14:13:04Z) - A Regularized Implicit Policy for Offline Reinforcement Learning [54.7427227775581]
オフラインの強化学習は、環境とのさらなるインタラクションなしに、固定データセットから学習を可能にする。
フレキシブルだが十分に調整された完全実装ポリシーの学習を支援するフレームワークを提案する。
D4RLデータセットの実験とアブレーション研究により、我々のフレームワークとアルゴリズム設計の有効性が検証された。
論文 参考訳(メタデータ) (2022-02-19T20:22:04Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Behavior Priors for Efficient Reinforcement Learning [97.81587970962232]
本稿では,情報とアーキテクチャの制約を,確率論的モデリング文献のアイデアと組み合わせて行動の事前学習を行う方法について考察する。
このような潜伏変数の定式化が階層的強化学習(HRL)と相互情報と好奇心に基づく目的との関係について論じる。
シミュレーションされた連続制御領域に適用することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-10-27T13:17:18Z) - Jointly-Learned State-Action Embedding for Efficient Reinforcement
Learning [8.342863878589332]
本研究では,モデルフリーとモデルベース強化学習の側面を組み合わせた状態と動作の埋め込み学習手法を提案する。
提案手法は,大きな状態/動作空間を持つ離散/連続領域および連続領域において,最先端モデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-09T09:09:31Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。