論文の概要: Satisficing Exploration for Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2407.12185v1
- Date: Tue, 16 Jul 2024 21:28:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 19:08:36.742494
- Title: Satisficing Exploration for Deep Reinforcement Learning
- Title(参考訳): 深層強化学習のための満足度探索
- Authors: Dilip Arumugam, Saurabh Kumar, Ramki Gummadi, Benjamin Van Roy,
- Abstract要約: 現実世界の広大さと規模にアプローチする複雑な環境では、最適な性能を達成することは、実際には完全に難易度の高い試みであるかもしれない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足や満足のいくソリューションを優先して最適なソリューションを意図的に実現している。
モデルベース計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張します。
- 参考スコア(独自算出の注目度): 26.73584163318647
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A default assumption in the design of reinforcement-learning algorithms is that a decision-making agent always explores to learn optimal behavior. In sufficiently complex environments that approach the vastness and scale of the real world, however, attaining optimal performance may in fact be an entirely intractable endeavor and an agent may seldom find itself in a position to complete the requisite exploration for identifying an optimal policy. Recent work has leveraged tools from information theory to design agents that deliberately forgo optimal solutions in favor of sufficiently-satisfying or satisficing solutions, obtained through lossy compression. Notably, such agents may employ fundamentally different exploratory decisions to learn satisficing behaviors more efficiently than optimal ones that are more data intensive. While supported by a rigorous corroborating theory, the underlying algorithm relies on model-based planning, drastically limiting the compatibility of these ideas with function approximation and high-dimensional observations. In this work, we remedy this issue by extending an agent that directly represents uncertainty over the optimal value function allowing it to both bypass the need for model-based planning and to learn satisficing policies. We provide simple yet illustrative experiments that demonstrate how our algorithm enables deep reinforcement-learning agents to achieve satisficing behaviors. In keeping with previous work on this setting for multi-armed bandits, we additionally find that our algorithm is capable of synthesizing optimal behaviors, when feasible, more efficiently than its non-information-theoretic counterpart.
- Abstract(参考訳): 強化学習アルゴリズムの設計におけるデフォルトの前提は、意思決定エージェントが常に最適な行動を学ぶことである。
しかし、現実世界の広大さと規模にアプローチする十分な複雑な環境では、最適なパフォーマンスを達成することは、実際には完全に難解な試みであり、エージェントが最適な政策を特定するための必要な探索を完了させる立場に立つことは滅多にない。
最近の研究は、情報理論から設計エージェントへのツールを活用し、十分な満足度や満足度のあるソリューションが、損失のある圧縮によって得られるように、最適なソリューションを意図的に強制する。
特に、このようなエージェントは、データ集約的な最適なエージェントよりも効率よく満足度の高い行動を学ぶために、根本的に異なる探索的決定を採用する可能性がある。
厳密な近似理論によって支持されているが、基礎となるアルゴリズムはモデルに基づく計画に依存しており、関数近似と高次元観測によるこれらのアイデアの互換性を劇的に制限している。
本研究では、モデルベースの計画の必要性を回避し、満足度の高いポリシーを学習できるように、最適な値関数に対する不確実性を直接表現するエージェントを拡張して、この問題を是正する。
我々は,本アルゴリズムが深層強化学習エージェントを満足度の高い行動にどのように適用できるかを示す,単純かつ図解的な実験を行った。
マルチアームバンディットのこの設定に関する以前の研究に従えば、我々のアルゴリズムは、情報理論以外の手法よりも効率的に最適な振る舞いを合成できることが分かる。
関連論文リスト
- Beyond Training: Optimizing Reinforcement Learning Based Job Shop Scheduling Through Adaptive Action Sampling [10.931466852026663]
推論における訓練深部強化学習(DRL)エージェントの最適利用について検討した。
我々の研究は、探索アルゴリズムと同様に、訓練されたDRLエージェントの利用は許容できる計算予算に依存するべきであるという仮説に基づいている。
そこで本稿では, 与えられた多数の解と任意の訓練されたエージェントに対して最適なパラメータ化を求めるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:18Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Deciding What to Model: Value-Equivalent Sampling for Reinforcement
Learning [21.931580762349096]
本稿では,エージェントが真のモデルの代わりにターゲットにできるような,ほぼ等価でロッキーな環境圧縮を計算するアルゴリズムを提案する。
有限水平, エピソディックな逐次決定問題を解くアルゴリズムに対して, 情報理論的, ベイズ的後悔を証明した。
論文 参考訳(メタデータ) (2022-06-04T23:36:38Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Reinforcement Learning with Algorithms from Probabilistic Structure
Estimation [9.37335587960084]
強化学習アルゴリズムは未知の環境で最適な決定を学習することを目的としている。
エージェントのアクションが環境に影響を及ぼすかどうかは、当初から不明である。
どのRLアルゴリズムが最も適しているかを決定することはしばしば不可能です。
論文 参考訳(メタデータ) (2021-03-15T09:51:34Z) - Deciding What to Learn: A Rate-Distortion Approach [21.945359614094503]
複雑な環境では、最適ポリシーの合成が不可能になる可能性がある。
我々は,デザイナーの好みをエージェントの定型学習対象に翻訳するプロセスを自動化する。
最適ポリシーの同定におけるトンプソンサンプリングの改善を示す。
論文 参考訳(メタデータ) (2021-01-15T16:22:49Z) - Provably Efficient Reward-Agnostic Navigation with Linear Value
Iteration [143.43658264904863]
我々は、最小二乗値スタイルのアルゴリズムで一般的に使用される、より標準的なベルマン誤差の概念の下での反復が、ほぼ最適値関数の学習において強力なPAC保証を提供することを示す。
そこで本稿では,任意の(線形な)報酬関数に対して,最適に近いポリシーを学習するためにどのように使用できるかを示す。
論文 参考訳(メタデータ) (2020-08-18T04:34:21Z) - Sequential Transfer in Reinforcement Learning with a Generative Model [48.40219742217783]
本稿では,従来の課題から知識を移譲することで,新たな課題を学習する際のサンプルの複雑さを軽減する方法について述べる。
この種の事前知識を使用することのメリットを明確に示すために,PAC境界のサンプル複雑性を導出する。
簡単なシミュレートされた領域における理論的な発見を実証的に検証する。
論文 参考訳(メタデータ) (2020-07-01T19:53:35Z) - Optimizing Wireless Systems Using Unsupervised and
Reinforced-Unsupervised Deep Learning [96.01176486957226]
無線ネットワークにおけるリソース割り当てとトランシーバーは、通常最適化問題の解決によって設計される。
本稿では,変数最適化と関数最適化の両問題を解くための教師なし・教師なし学習フレームワークを紹介する。
論文 参考訳(メタデータ) (2020-01-03T11:01:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。