Fugu-MT 論文翻訳(概要): Selective Uncertainty Propagation in Offline RL

論文の概要: Selective Uncertainty Propagation in Offline RL

arxiv url: http://arxiv.org/abs/2302.00284v1
Date: Wed, 1 Feb 2023 07:31:25 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-02 13:27:11.805444
Title: Selective Uncertainty Propagation in Offline RL
Title（参考訳）: オフラインRLにおける選択的不確かさ伝播
Authors: Sanath Kumar Krishnamurthy, Tanmay Gangwani, Sumeet Katariya, Branislav Kveton, Anshuka Rangi
Abstract要約: 有限水平オフライン強化学習(RL)問題について検討する。オフラインのRLインスタンスは、次の状態分布に対するアクションの影響の大きさを推定することで測定できることを示し、この洞察を形式化する。
参考スコア（独自算出の注目度）: 25.137819100906274
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: We study the finite-horizon offline reinforcement learning (RL) problem. Since actions at any state can affect next-state distributions, the related distributional shift challenges can make this problem far more statistically complex than offline policy learning for a finite sequence of stochastic contextual bandit environments. We formalize this insight by showing that the statistical hardness of offline RL instances can be measured by estimating the size of actions' impact on next-state distributions. Furthermore, this estimated impact allows us to propagate just enough value function uncertainty from future steps to avoid model exploitation, enabling us to develop algorithms that improve upon traditional pessimistic approaches for offline RL on statistically simple instances. Our approach is supported by theory and simulations.
Abstract（参考訳）: 有限水平オフライン強化学習(RL)問題について検討する。任意の状態における行動は次の状態分布に影響を与える可能性があるため、関連する分布シフト問題により、この問題は確率的文脈帯域環境の有限列に対するオフラインポリシー学習よりもはるかに統計的に複雑になる。オフラインRLインスタンスの統計的硬度は、次の状態分布に対するアクションの影響の大きさを推定することで測定できることを示し、この知見を形式化する。さらに、この推定された影響により、モデル悪用を避けるために将来のステップから十分な値関数の不確実性を伝播することができ、統計的に単純なインスタンス上でのオフラインRLに対する従来の悲観的アプローチを改善するアルゴリズムを開発することができる。我々のアプローチは理論とシミュレーションによって支えられている。

関連論文リスト

Hierarchical Reinforcement Learning with Uncertainty-Guided Diffusional Subgoals [12.894271401094615]
HRLの重要な課題は、低レベルの政策が時間とともに変化し、高レベルの政策が効果的なサブゴールを生成するのが難しくなることである。本稿では,ガウス過程(GP)によって正規化された条件拡散モデルを訓練して,複雑なサブゴールを生成する手法を提案する。この枠組みに基づいて,拡散政策とGPの予測平均からサブゴールを選択する戦略を開発する。
論文参考訳（メタデータ） (2025-05-27T20:38:44Z)
Evaluation-Time Policy Switching for Offline Reinforcement Learning [5.052293146674794]
オフライン強化学習(RL)では、環境からのインタラクションのデータセットを固定してタスクを最適に解決する方法を学ぶ。オンライン学習のための多くの非政治アルゴリズムは、オフライン環境において、行動の分布の振る舞いを過大評価する傾向にある。既存のオフラインRLアルゴリズムは、ポリシの制約やバリュー関数の変更といったテクニックを採用して、個々のデータセットのパフォーマンス向上を実現している。我々は、行動改善のための純粋な非政治的RLエージェントの挙動を動的に結合するポリシー切替技術と、近くにとどまる行動的クローニング(BC)エージェントを導入する。
論文参考訳（メタデータ） (2025-03-15T18:12:16Z)
Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文参考訳（メタデータ） (2023-11-25T00:30:58Z)
Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文参考訳（メタデータ） (2023-07-25T21:38:08Z)
Budgeting Counterfactual for Offline RL [25.918011878015136]
本稿では,トレーニング中のアウト・オブ・ディストリビューション・アクションの量を明示的に制限する手法を提案する。そこで本研究では,D4RL ベンチマークのタスクにおける最先端のオフライン RL 手法よりも,本手法の全体的な性能がよいことを示す。
論文参考訳（メタデータ） (2023-07-12T17:47:35Z)
Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文参考訳（メタデータ） (2022-08-01T11:33:12Z)
Regularizing a Model-based Policy Stationary Distribution to Stabilize Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文参考訳（メタデータ） (2022-06-14T20:56:16Z)
Latent-Variable Advantage-Weighted Policy Optimization for Offline RL [70.01851346635637]
オフラインの強化学習メソッドは、新しいトランジションを環境に問い合わせる必要なしに、事前にコンパイルされたデータセットから学習ポリシーを保証します。実際には、オフラインデータセットは、しばしば異種、すなわち様々なシナリオで収集される。より広範な政策分布を表現できる潜在変数ポリシーを活用することを提案する。提案手法は,次回のオフライン強化学習法の性能を,異種データセット上で49%向上させる。
論文参考訳（メタデータ） (2022-03-16T21:17:03Z)
Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文参考訳（メタデータ） (2020-06-18T17:34:50Z)
Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文参考訳（メタデータ） (2020-03-09T13:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。