論文の概要: Knowledge is reward: Learning optimal exploration by predictive reward
cashing
- arxiv url: http://arxiv.org/abs/2109.08518v1
- Date: Fri, 17 Sep 2021 12:52:24 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-20 14:48:08.582994
- Title: Knowledge is reward: Learning optimal exploration by predictive reward
cashing
- Title(参考訳): 知識と報酬:予測報酬キャッシュリングによる最適探索の学習
- Authors: Luca Ambrogioni
- Abstract要約: ベイズ適応問題の本質的な数学的構造を利用して問題を劇的に単純化する。
この単純化の鍵は、クロスバリューという新しい概念から来ている。
これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。
- 参考スコア(独自算出の注目度): 5.279475826661643
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There is a strong link between the general concept of intelligence and the
ability to collect and use information. The theory of Bayes-adaptive
exploration offers an attractive optimality framework for training machines to
perform complex information gathering tasks. However, the computational
complexity of the resulting optimal control problem has limited the diffusion
of the theory to mainstream deep AI research. In this paper we exploit the
inherent mathematical structure of Bayes-adaptive problems in order to
dramatically simplify the problem by making the reward structure denser while
simultaneously decoupling the learning of exploitation and exploration
policies. The key to this simplification comes from the novel concept of
cross-value (i.e. the value of being in an environment while acting optimally
according to another), which we use to quantify the value of currently
available information. This results in a new denser reward structure that
"cashes in" all future rewards that can be predicted from the current
information state. In a set of experiments we show that the approach makes it
possible to learn challenging information gathering tasks without the use of
shaping and heuristic bonuses in situations where the standard RL algorithms
fail.
- Abstract(参考訳): 知性の一般的な概念と情報の収集と利用の間には強い関連がある。
ベイズ適応探索の理論は、複雑な情報収集タスクを訓練する機械にとって魅力的な最適性フレームワークを提供する。
しかし、結果の最適制御問題の計算複雑性は、理論の主流となる深層AI研究への拡散を制限している。
本稿では,ベイズ適応問題の本質的な数学的構造を利用して,搾取と探索政策の学習を分離しながら,報酬構造をより密にすることで問題を劇的に単純化する。
この単純化の鍵となるのは、現在利用可能な情報の価値を定量化するために使われる、クロスバリューという新しい概念(すなわち、環境において最適な行動をとることの値)から来ている。
これにより、現在の情報状態から予測できる全ての将来の報酬を"キャッシュイン"する、新しいより密度の高い報酬構造が得られる。
実験では,標準的なRLアルゴリズムが故障した場合に,形状やヒューリスティックなボーナスを使わずに,難易度の高い情報収集タスクを学習できるようにする。
関連論文リスト
- Accelerating Exploration with Unlabeled Prior Data [66.43995032226466]
我々は,報酬ラベルのない先行データを用いて,新たなスパース報酬タスクを解くエージェントの探索を指導し,加速する方法について検討する。
我々は、オンライン体験から報酬モデルを学び、ラベルのない事前データを楽観的な報酬でラベル付けし、ダウンストリームポリシーと批判最適化のためにオンラインデータと並行して使用する簡単なアプローチを提案する。
論文 参考訳(メタデータ) (2023-11-09T00:05:17Z) - CLARE: Conservative Model-Based Reward Learning for Offline Inverse
Reinforcement Learning [26.05184273238923]
この研究は、オフライン逆強化学習(IRL)における大きな課題に取り組むことを目的としている。
我々は「保守主義」を学習報酬関数に統合することでオフラインIRLを効率的に解くアルゴリズム(CLARE)を考案した。
我々の理論的分析は、学習した方針と専門家の政策の間のリターンギャップに上限を与える。
論文 参考訳(メタデータ) (2023-02-09T17:16:29Z) - Actively Learning Costly Reward Functions for Reinforcement Learning [56.34005280792013]
複雑な実世界の環境でエージェントを訓練することは、桁違いに高速であることを示す。
強化学習の手法を新しい領域に適用することにより、興味深く非自明な解を見つけることができることを示す。
論文 参考訳(メタデータ) (2022-11-23T19:17:20Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Reinforcement Learning with Efficient Active Feature Acquisition [59.91808801541007]
実生活では、情報取得は患者の医療検査に該当する可能性がある。
本稿では,アクティブな特徴獲得ポリシーを学習するモデルに基づく強化学習フレームワークを提案する。
この成功の鍵は、部分的に観察された状態から高品質な表現を学ぶ新しい逐次変分自動エンコーダである。
論文 参考訳(メタデータ) (2020-11-02T08:46:27Z) - Learning Guidance Rewards with Trajectory-space Smoothing [22.456737935789103]
長期的信用割当は深層強化学習における重要な課題である。
既存の政策段階のアルゴリズムとQラーニングアルゴリズムは、豊富な短期的な監督を提供する密集した環境報酬に依存している。
近年の研究では、粗末な環境報酬や遅延した環境報酬の代わりに使用できる密集した「ガイダンス」報酬を学習するためのアルゴリズムが提案されている。
論文 参考訳(メタデータ) (2020-10-23T23:55:06Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。