論文の概要: Reinforcement Learning through Active Inference
- arxiv url: http://arxiv.org/abs/2002.12636v1
- Date: Fri, 28 Feb 2020 10:28:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:29:53.929046
- Title: Reinforcement Learning through Active Inference
- Title(参考訳): アクティブ推論による強化学習
- Authors: Alexander Tschantz, Beren Millidge, Anil K. Seth, Christopher L.
Buckley
- Abstract要約: アクティブ推論のアイデアが従来の強化学習アプローチをどのように強化するかを示す。
我々は、将来望まれる自由エネルギーという、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムが探索および利用に成功し、また、スパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて頑健な性能を達成することを実証した。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The central tenet of reinforcement learning (RL) is that agents seek to
maximize the sum of cumulative rewards. In contrast, active inference, an
emerging framework within cognitive and computational neuroscience, proposes
that agents act to maximize the evidence for a biased generative model. Here,
we illustrate how ideas from active inference can augment traditional RL
approaches by (i) furnishing an inherent balance of exploration and
exploitation, and (ii) providing a more flexible conceptualization of reward.
Inspired by active inference, we develop and implement a novel objective for
decision making, which we term the free energy of the expected future. We
demonstrate that the resulting algorithm successfully balances exploration and
exploitation, simultaneously achieving robust performance on several
challenging RL benchmarks with sparse, well-shaped, and no rewards.
- Abstract(参考訳): 強化学習(RL)の中心的特徴は、エージェントが累積報酬の総和を最大化しようとすることである。
対照的に、認知神経科学と計算神経科学の新たな枠組みである能動的推論は、エージェントがバイアス付き生成モデルの証拠を最大化するために行動することを提案する。
ここでは、アクティブ推論のアイデアが従来のRLアプローチをどのように拡張するかを説明する。
(i)探索と搾取の固有のバランスを提供する
(ii)報酬のより柔軟な概念化を提供する。
能動的推論にインスパイアされ、我々は、期待される未来の自由エネルギー(free energy of the future)と呼ぶ、意思決定のための新しい目標を開発し、実装する。
得られたアルゴリズムは探索とエクスプロイトのバランスをうまく保ち、同時にスパース、ウェル形状、報酬のないいくつかの挑戦的RLベンチマークにおいて堅牢な性能を達成することを実証する。
関連論文リスト
- Latent Variable Representation for Reinforcement Learning [131.03944557979725]
モデルに基づく強化学習のサンプル効率を改善するために、潜在変数モデルが学習、計画、探索をいかに促進するかは理論上、実証上、不明である。
状態-作用値関数に対する潜在変数モデルの表現ビューを提供する。これは、抽出可能な変分学習アルゴリズムと楽観主義/悲観主義の原理の効果的な実装の両方を可能にする。
特に,潜伏変数モデルのカーネル埋め込みを組み込んだUPB探索を用いた計算効率の良い計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-17T00:26:31Z) - Active Inference and Reinforcement Learning: A unified inference on
continuous state and action spaces under partially observability [23.11272879805885]
多くの実世界の問題は、部分的に観測可能な決定過程(POMDP)として定式化された部分的な観察を含む。
これまでの研究では、過去の行動や観察の記憶を取り入れたり、環境の本当の状態を推測することで、PMDPのRLに取り組みました。
アクティブ推論(AIF)と強化学習(RL)の理論的関係を確立する統一原理を提案する。
実験により,連続的な空間を部分的に観測可能なタスクを解く上で,本手法の優れた学習能力を実証した。
論文 参考訳(メタデータ) (2022-12-15T16:28:06Z) - Intrinsically-Motivated Reinforcement Learning: A Brief Introduction [0.0]
強化学習(Reinforcement Learning, RL)は、機械学習の3つの基本パラダイムの1つである。
本稿では,RLにおける探査改善の問題点を考察し,本質的な動機付け型RLを導入した。
論文 参考訳(メタデータ) (2022-03-03T12:39:58Z) - Reinforced Imitation Learning by Free Energy Principle [2.9327503320877457]
強化学習(Reinforcement Learning, RL)は、特にスパース・リワード・セッティングにおいて、大量の探索を必要とする。
イミテーション・ラーニング(IL)は、専門家によるデモンストレーションから探究なしで学ぶことができる。
自由エネルギー原理(FEP)に基づくRLとILを根本的に統一する
論文 参考訳(メタデータ) (2021-07-25T14:19:29Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Backprop-Free Reinforcement Learning with Active Neural Generative
Coding [84.11376568625353]
動的環境におけるエラー(バックプロップ)のバックプロパゲーションを伴わない行動駆動型生成モデルの学習のための計算フレームワークを提案する。
我々は、まばらな報酬でも機能するインテリジェントエージェントを開発し、推論として計画の認知理論からインスピレーションを得ている。
我々のエージェントの堅牢な性能は、神経推論と学習のためのバックプロップフリーアプローチがゴール指向の行動を促進するという有望な証拠を提供する。
論文 参考訳(メタデータ) (2021-07-10T19:02:27Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Prior Preference Learning from Experts:Designing a Reward with Active
Inference [1.1602089225841632]
能動推論は強化学習(RL)アルゴリズムを用いて解釈できると主張している。
先行選好の概念と理論的連関に動機づけられ,専門家から先行選好を学ぶための単純だが新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-22T04:03:45Z) - Imitation with Neural Density Models [98.34503611309256]
本稿では,Imitation Occupancy Entropy Reinforcement Learning (RL) を報奨として,専門家の占有率の密度推定によるImitation Learning (IL) の新しい枠組みを提案する。
提案手法は,専門家の占有率と模倣者の占有率の逆Kulback-Leibler偏差を確実に低くする非逆モデル自由RLの目的を最大化する。
論文 参考訳(メタデータ) (2020-10-19T19:38:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。