論文の概要: Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2211.04583v1
- Date: Sun, 6 Nov 2022 07:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 16:29:26.972649
- Title: Wall Street Tree Search: Risk-Aware Planning for Offline Reinforcement
Learning
- Title(参考訳): wall street tree search: オフライン強化学習のためのリスク対応計画
- Authors: Dan Elbaz and Gal Novik and Oren Salzman
- Abstract要約: オフライン強化学習(RL)アルゴリズムは、追加のオンラインデータ収集を行うことなく、所定の固定トレーニングデータセットを使用して意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.089234432461804
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Offline reinforcement-learning (RL) algorithms learn to make decisions using
a given, fixed training dataset without the possibility of additional online
data collection. This problem setting is captivating because it holds the
promise of utilizing previously collected datasets without any costly or risky
interaction with the environment. However, this promise also bears the drawback
of this setting. The restricted dataset induces subjective uncertainty because
the agent can encounter unfamiliar sequences of states and actions that the
training data did not cover. Moreover, inherent system stochasticity further
increases uncertainty and aggravates the offline RL problem, preventing the
agent from learning an optimal policy. To mitigate the destructive uncertainty
effects, we need to balance the aspiration to take reward-maximizing actions
with the incurred risk due to incorrect ones. In financial economics, modern
portfolio theory (MPT) is a method that risk-averse investors can use to
construct diversified portfolios that maximize their returns without
unacceptable levels of risk. We integrate MPT into the agent's decision-making
process to present a simple-yet-highly-effective risk-aware planning algorithm
for offline RL. Our algorithm allows us to systematically account for the
\emph{estimated quality} of specific actions and their \emph{estimated risk}
due to the uncertainty. We show that our approach can be coupled with the
Transformer architecture to yield a state-of-the-art planner for offline RL
tasks, maximizing the return while significantly reducing the variance.
- Abstract(参考訳): オフライン強化学習(rl)アルゴリズムは、所定の固定トレーニングデータセットを使用して、追加のオンラインデータ収集をせずに意思決定を学習する。
この問題は、以前収集したデータセットを環境とのコストやリスクのない相互作用なしに活用する、という約束があるからである。
しかし、この約束もこの設定の欠点を生んでいる。
制限されたデータセットは、エージェントがトレーニングデータがカバーしていない未知の状態や行動に遭遇する可能性があるため、主観的不確実性を引き起こす。
さらに、システムの確率性はさらに不確実性を高め、オフラインのRL問題を悪化させ、エージェントが最適なポリシーを学ぶのを防ぐ。
破壊的不確実性の影響を軽減するためには,報酬を最大化する行動と,誤った行動によるリスクとをバランスさせる必要がある。
金融経済学において、近代ポートフォリオ理論(英: modern portfolio theory、MPT)は、リスクを伴わない投資家が、許容できないリスクレベルを伴わずに利益を最大化する多様化ポートフォリオを構築するために使用できる方法である。
我々はMPTをエージェントの意思決定プロセスに統合し、オフラインRLのための簡易かつ高効率なリスク対応計画アルゴリズムを提案する。
我々のアルゴリズムは, 不確実性から, 特定の行動の「emph{estimated quality}」と「emph{estimated risk}」を体系的に説明できる。
提案手法はtransformerアーキテクチャと組み合わせることで,オフラインのrlタスクのための最先端のプランナを実現し,再帰を最大化し,分散を著しく削減できることを示す。
関連論文リスト
- OffRIPP: Offline RL-based Informative Path Planning [12.705099730591671]
IPPはロボット工学において重要なタスクであり、ターゲット環境に関する貴重な情報を収集するためには、エージェントが経路を設計する必要がある。
トレーニング中のリアルタイムインタラクションを必要とせずに情報ゲインを最適化するオフラインRLベースのIPPフレームワークを提案する。
我々は、広範囲なシミュレーションと実世界の実験を通して、この枠組みを検証する。
論文 参考訳(メタデータ) (2024-09-25T11:30:59Z) - Sparsity-based Safety Conservatism for Constrained Offline Reinforcement Learning [4.0847743592744905]
強化学習(Reinforcement Learning, RL)は、自律運転やロボット操作といった意思決定分野で大きな成功を収めている。
RLのトレーニングアプローチは、"オン・ポリティクス(on-policy)"サンプリングを中心にしているが、データを完全には活用していない。
オフラインRLは魅力的な代替手段として現れており、特に追加実験を行うことは実用的ではない。
論文 参考訳(メタデータ) (2024-07-17T20:57:05Z) - Distributional Reinforcement Learning with Online Risk-awareness
Adaption [5.363478475460403]
オンラインリスク適応型分散RL(DRL-ORA)を新たに導入する。
DRL-ORAは、オンラインの総変動最小化問題を解くことにより、てんかんのリスクレベルを動的に選択する。
DRL-ORAは、固定リスクレベルまたは手動で決められたリスクレベルに依存する既存の手法よりも優れている、複数のタスクのクラスを示す。
論文 参考訳(メタデータ) (2023-10-08T14:32:23Z) - Risk-Averse Reinforcement Learning via Dynamic Time-Consistent Risk
Measures [10.221369785560785]
本稿では,マルコフ決定過程(MDP)における報酬列の動的リスクを最大化する問題について考察する。
予測と条件付きリスクリスク(CVaR)の凸結合を特別な一段階の条件付きリスク尺度として用いて、我々は、リスク回避型MDPを、強化されたアクション空間を持つリスク中立型として再構成し、即時報酬の操作を行う。
本研究は,リスク・アバース・セッティングが分散を低減し,その結果のロバスト性を高めることを示唆するものである。
論文 参考訳(メタデータ) (2023-01-14T21:43:18Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Efficient Risk-Averse Reinforcement Learning [79.61412643761034]
リスク逆強化学習(RL)では、リターンのリスク測定を最適化することが目標である。
特定の条件下では、これは必然的に局所最適障壁につながることを証明し、それを回避するためのソフトリスク機構を提案する。
迷路ナビゲーション,自律運転,資源配分ベンチマークにおいて,リスク回避の改善を示す。
論文 参考訳(メタデータ) (2022-05-10T19:40:52Z) - Safe Online Bid Optimization with Return-On-Investment and Budget
Constraints subject to Uncertainty [87.81197574939355]
最適化問題と学習問題の両方について検討する。
我々は、潜在的に線形な数の制約違反を犠牲にして、サブ線形後悔を保証するアルゴリズム、すなわちGCBを提供する。
より興味深いことに、我々はGCB_safe(psi,phi)というアルゴリズムを提供し、サブ線形擬似回帰と安全性w.h.p.の両方を、耐性 psi と phi を受け入れるコストで保証する。
論文 参考訳(メタデータ) (2022-01-18T17:24:20Z) - Conservative Offline Distributional Reinforcement Learning [34.95001490294207]
我々は,リスクニュートラルドメインとリスクアバースドメインの両方に対して,保守的オフライン配信アクタ批判(CODAC)を提案する。
CODAC は分布 RL をオフライン設定に適応させ、予測された分布の量子化をアウト・オブ・ディストリビューション・アクション(out-of-distribution action)として罰する。
実験では、CODACはリスク中立エージェントから純粋に収集されたオフラインデータを用いて、リスク回避ポリシーをうまく学習する。
論文 参考訳(メタデータ) (2021-07-12T15:38:06Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。