論文の概要: Online reinforcement learning with sparse rewards through an active
inference capsule
- arxiv url: http://arxiv.org/abs/2106.02390v1
- Date: Fri, 4 Jun 2021 10:03:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-07 23:49:52.212794
- Title: Online reinforcement learning with sparse rewards through an active
inference capsule
- Title(参考訳): アクティブ推論カプセルによるスパース報酬によるオンライン強化学習
- Authors: Alejandro Daniel Noel (1), Charel van Hoof (1), Beren Millidge (2)
((1) Delft University of Technology, (2) University of Oxford)
- Abstract要約: 本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 62.997667081978825
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Intelligent agents must pursue their goals in complex environments with
partial information and often limited computational capacity. Reinforcement
learning methods have achieved great success by creating agents that optimize
engineered reward functions, but which often struggle to learn in sparse-reward
environments, generally require many environmental interactions to perform
well, and are typically computationally very expensive. Active inference is a
model-based approach that directs agents to explore uncertain states while
adhering to a prior model of their goal behaviour. This paper introduces an
active inference agent which minimizes the novel free energy of the expected
future. Our model is capable of solving sparse-reward problems with a very high
sample efficiency due to its objective function, which encourages directed
exploration of uncertain states. Moreover, our model is computationally very
light and can operate in a fully online manner while achieving comparable
performance to offline RL methods. We showcase the capabilities of our model by
solving the mountain car problem, where we demonstrate its superior exploration
properties and its robustness to observation noise, which in fact improves
performance. We also introduce a novel method for approximating the prior model
from the reward function, which simplifies the expression of complex objectives
and improves performance over previous active inference approaches.
- Abstract(参考訳): 知的エージェントは、部分的な情報としばしば計算能力が制限された複雑な環境で目標を追求しなければならない。
強化学習法は、エンジニアリングされた報酬関数を最適化するエージェントを作成することで大きな成功を収めてきたが、しばしばスパース・リワード環境での学習に苦慮し、多くの環境相互作用を必要とし、通常は計算上非常に高価である。
アクティブ推論(active inference)は、エージェントが目標行動の事前モデルに固執しながら、不確定な状態を探索するためのモデルベースアプローチである。
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
本モデルでは,不確実な状態の直接探索を奨励する目的関数により,スパース・リワード問題を極めて高いサンプリング効率で解くことができる。
さらに,本モデルは非常に軽量であり,オフラインRL法に匹敵する性能を保ちながら,完全にオンライン的に動作することができる。
我々は,マウンテンカー問題を解くことで,その優れた探索特性と観測騒音に対する頑健さを実証し,実際に性能の向上を図っている。
また,事前モデルを報酬関数から近似する新しい手法を導入し,複雑な目的の表現を単純化し,従来のアクティブ推論手法よりも性能を向上させる。
関連論文リスト
- Can foundation models actively gather information in interactive environments to test hypotheses? [56.651636971591536]
隠れた報酬関数に影響を与える要因をモデルが決定しなければならない枠組みを導入する。
自己スループットや推論時間の増加といったアプローチが情報収集効率を向上させるかどうかを検討する。
論文 参考訳(メタデータ) (2024-12-09T12:27:21Z) - On the Modeling Capabilities of Large Language Models for Sequential Decision Making [52.128546842746246]
大規模な事前訓練されたモデルでは、推論や計画タスクのパフォーマンスがますます向上している。
我々は、直接的または間接的に、意思決定ポリシーを作成する能力を評価する。
未知の力学を持つ環境において、合成データを用いた微調整LDMが報酬モデリング能力を大幅に向上させる方法について検討する。
論文 参考訳(メタデータ) (2024-10-08T03:12:57Z) - Learning Off-policy with Model-based Intrinsic Motivation For Active Online Exploration [15.463313629574111]
本稿では,連続制御タスクにおけるサンプル効率の高い探索手法について検討する。
本稿では,予測モデルと非政治学習要素を組み込んだRLアルゴリズムを提案する。
パラメーターのオーバーヘッドを発生させずに本質的な報酬を導き出す。
論文 参考訳(メタデータ) (2024-03-31T11:39:11Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Self-supervised network distillation: an effective approach to exploration in sparse reward environments [0.0]
強化学習は、事前に設計された報酬関数に従って、エージェントが環境の中で振る舞うように訓練することができる。
そのような問題の解決策は、エージェントに情報的な探索を提供する本質的な動機を与えることであるかもしれない。
本稿では, 蒸留誤差に基づく本質的な動機づけアルゴリズムである自己教師ネットワーク蒸留(SND)を新規性指標として提示する。
論文 参考訳(メタデータ) (2023-02-22T18:58:09Z) - CostNet: An End-to-End Framework for Goal-Directed Reinforcement
Learning [9.432068833600884]
強化学習(Reinforcement Learning, RL)は、環境における報酬の最大化を目指すエージェントに関する一般的なフレームワークである。
モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。
本稿ではマルコフ決定過程における2つの状態間の距離を予測するための新しい強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-03T21:16:14Z) - Simplifying Model-based RL: Learning Representations, Latent-space
Models, and Policies with One Objective [142.36200080384145]
自己整合性を維持しつつ高いリターンを達成するために,潜在空間モデルとポリシーを協調的に最適化する単一目的を提案する。
得られたアルゴリズムは, モデルベースおよびモデルフリーRL手法のサンプル効率に適合するか, 改善することを示した。
論文 参考訳(メタデータ) (2022-09-18T03:51:58Z) - Basis for Intentions: Efficient Inverse Reinforcement Learning using
Past Experience [89.30876995059168]
逆強化学習(IRL) - エージェントの報酬関数をその振る舞いを観察することから推測する。
本稿では、エージェントの報酬関数を観察することのできないIRLの問題に対処する。
論文 参考訳(メタデータ) (2022-08-09T17:29:49Z) - Hindsight Reward Tweaking via Conditional Deep Reinforcement Learning [37.61951923445689]
本稿では,最近空間における報酬関数の影響をモデル化するための,深層強化学習のための新しいパラダイムを提案する。
このアプローチの実現可能性を示し、複数の MuJoCo タスクによる政策パフォーマンス向上における潜在的応用の1つについて検討する。
論文 参考訳(メタデータ) (2021-09-06T10:06:48Z) - Goal-Aware Prediction: Learning to Model What Matters [105.43098326577434]
学習した前進力学モデルを使用する際の根本的な課題の1つは、学習したモデルの目的と下流のプランナーやポリシーの目標とのミスマッチである。
本稿では,タスク関連情報への直接的予測を提案し,そのモデルが現在のタスクを認識し,状態空間の関連量のみをモデル化することを奨励する。
提案手法は,目標条件付きシーンの関連部分を効果的にモデル化し,その結果,標準タスク非依存のダイナミックスモデルやモデルレス強化学習より優れていることがわかった。
論文 参考訳(メタデータ) (2020-07-14T16:42:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。