論文の概要: Modeling Survival in model-based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2004.08648v1
- Date: Sat, 18 Apr 2020 15:49:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-12 05:02:00.102445
- Title: Modeling Survival in model-based Reinforcement Learning
- Title(参考訳): モデルベース強化学習におけるサバイバルモデル
- Authors: Saeed Moazami, Peggy Doerschuk
- Abstract要約: この研究は、エージェントの目的が生き残ることの事例を議論することで生存の概念を提示する。
端末状態を避けることを学ぶ報奨関数近似の代用モデルを導入する。
終端状態に注目することは、少数の状態空間として、トレーニングの労力を大幅に削減する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although recent model-free reinforcement learning algorithms have been shown
to be capable of mastering complicated decision-making tasks, the sample
complexity of these methods has remained a hurdle to utilizing them in many
real-world applications. In this regard, model-based reinforcement learning
proposes some remedies. Yet, inherently, model-based methods are more
computationally expensive and susceptible to sub-optimality. One reason is that
model-generated data are always less accurate than real data, and this often
leads to inaccurate transition and reward function models. With the aim to
mitigate this problem, this work presents the notion of survival by discussing
cases in which the agent's goal is to survive and its analogy to maximizing the
expected rewards. To that end, a substitute model for the reward function
approximator is introduced that learns to avoid terminal states rather than to
maximize accumulated rewards from safe states. Focusing on terminal states, as
a small fraction of state-space, reduces the training effort drastically. Next,
a model-based reinforcement learning method is proposed (Survive) to train an
agent to avoid dangerous states through a safety map model built upon temporal
credit assignment in the vicinity of terminal states. Finally, the performance
of the presented algorithm is investigated, along with a comparison between the
proposed and current methods.
- Abstract(参考訳): 最近のモデルフリー強化学習アルゴリズムは複雑な意思決定タスクを習得できることが示されているが、これらの手法のサンプル複雑さは多くの実世界のアプリケーションでそれらを利用する上でのハードルとなっている。
この点に関して、モデルに基づく強化学習はいくつかの改善を提案する。
しかし、本質的にモデルベースの手法は計算コストが高く、サブ最適性に影響を受けやすい。
1つの理由は、モデル生成データは常に実際のデータよりも正確ではなく、しばしば不正確な遷移と報酬関数モデルをもたらすことである。
この問題を緩和するために、エージェントの目的が生き残ることや、期待される報酬を最大化するための類似性について議論することで、生存の概念を提示する。
そのため、安全状態からの累積報酬を最大化するのではなく、終端状態を避けるために学習する報酬関数近似器の代替モデルが導入された。
終端状態に注目することは、少数の状態空間として、トレーニングの労力を大幅に削減する。
次に,端末状態近傍の時間的クレジット割り当てに基づく安全マップモデルを用いて,エージェントに危険な状態を避けるためのモデルに基づく強化学習手法(Survive)を提案する。
最後に,提案手法と現在の手法の比較を行い,提案アルゴリズムの性能について検討した。
関連論文リスト
- Towards Learning Stochastic Population Models by Gradient Descent [0.0]
パラメータと構造を同時に推定することで,最適化手法に大きな課題が生じることを示す。
モデルの正確な推定を実証するが、擬似的、解釈可能なモデルの推論を強制することは、難易度を劇的に高める。
論文 参考訳(メタデータ) (2024-04-10T14:38:58Z) - Deep autoregressive density nets vs neural ensembles for model-based
offline reinforcement learning [2.9158689853305693]
本稿では、利用可能なデータからシステムダイナミクスを推定し、仮想モデルロールアウトにおけるポリシー最適化を行うモデルベース強化学習アルゴリズムについて考察する。
このアプローチは、実際のシステムで破滅的な失敗を引き起こす可能性のあるモデルエラーを悪用することに対して脆弱である。
D4RLベンチマークの1つのよく校正された自己回帰モデルにより、より良い性能が得られることを示す。
論文 参考訳(メタデータ) (2024-02-05T10:18:15Z) - Enhancing Multiple Reliability Measures via Nuisance-extended
Information Bottleneck [77.37409441129995]
トレーニングデータに制限がある現実的なシナリオでは、データ内の多くの予測信号は、データ取得のバイアスからより多く得る。
我々は,相互情報制約の下で,より広い範囲の摂動をカバーできる敵の脅威モデルを考える。
そこで本研究では,その目的を実現するためのオートエンコーダベーストレーニングと,提案したハイブリッド識別世代学習を促進するための実用的なエンコーダ設計を提案する。
論文 参考訳(メタデータ) (2023-03-24T16:03:21Z) - Revisiting Design Choices in Model-Based Offline Reinforcement Learning [39.01805509055988]
オフライン強化学習により、エージェントは環境遷移の大規模な収集済みデータセットを利用して制御ポリシーを学習することができる。
本稿では、モデル数や仮想ロールアウト地平線など、他のハイパーパラメータとの相互作用を研究するための新しいプロトコルを比較し、設計する。
論文 参考訳(メタデータ) (2021-10-08T13:51:34Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Online reinforcement learning with sparse rewards through an active
inference capsule [62.997667081978825]
本稿では,将来期待される新しい自由エネルギーを最小化するアクティブ推論エージェントを提案する。
我々のモデルは、非常に高いサンプル効率でスパース・リワード問題を解くことができる。
また、複雑な目的の表現を単純化する報奨関数から事前モデルを近似する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-06-04T10:03:36Z) - Model-based Policy Optimization with Unsupervised Model Adaptation [37.09948645461043]
本研究では,不正確なモデル推定による実データとシミュレーションデータのギャップを埋めて,より良いポリシ最適化を実現する方法について検討する。
本稿では,教師なしモデル適応を導入したモデルベース強化学習フレームワークAMPOを提案する。
提案手法は,一連の連続制御ベンチマークタスクにおけるサンプル効率の観点から,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-10-19T14:19:42Z) - Goal-directed Generation of Discrete Structures with Conditional
Generative Models [85.51463588099556]
本稿では,強化学習目標を直接最適化し,期待される報酬を最大化するための新しいアプローチを提案する。
提案手法は、ユーザ定義プロパティを持つ分子の生成と、所定の目標値を評価する短いピソン表現の同定という2つのタスクで検証する。
論文 参考訳(メタデータ) (2020-10-05T20:03:13Z) - On the model-based stochastic value gradient for continuous
reinforcement learning [50.085645237597056]
モデルベースエージェントは,サンプル効率と最終報酬の両方の観点から,最先端のモデルフリーエージェントより優れていることを示す。
以上の結果から,モデルに基づく政策評価がより注目に値することが示唆された。
論文 参考訳(メタデータ) (2020-08-28T17:58:29Z) - Learning Diverse Representations for Fast Adaptation to Distribution
Shift [78.83747601814669]
本稿では,複数のモデルを学習する手法を提案する。
分散シフトへの迅速な適応を促進するフレームワークの能力を実証する。
論文 参考訳(メタデータ) (2020-06-12T12:23:50Z) - Model-Augmented Actor-Critic: Backpropagating through Paths [81.86992776864729]
現在のモデルに基づく強化学習アプローチでは、単に学習されたブラックボックスシミュレータとしてモデルを使用する。
その微分可能性を利用してモデルをより効果的に活用する方法を示す。
論文 参考訳(メタデータ) (2020-05-16T19:18:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。