Fugu-MT 論文翻訳(概要): Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning

論文の概要: Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.11897v2
Date: Fri, 18 Aug 2023 18:35:02 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 22:44:18.547877
Title: Hindsight-DICE: Stable Credit Assignment for Deep Reinforcement Learning
Title（参考訳）: Hindsight-DICE: 深層強化学習のための安定したクレジットアサインメント
Authors: Akash Velu, Skanda Vaidyanath, Dilip Arumugam
Abstract要約: 我々は,既存の重要度・重要度比推定手法をオフ政治評価に適用し,いわゆる後見政策手法の安定性と効率を大幅に向上させる。我々の後視分布補正は、信用代入がベースライン手法を悩ませている広範囲の環境において、安定的で効率的な学習を容易にする。
参考スコア（独自算出の注目度）: 11.084321518414226
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Oftentimes, environments for sequential decision-making problems can be quite sparse in the provision of evaluative feedback to guide reinforcement-learning agents. In the extreme case, long trajectories of behavior are merely punctuated with a single terminal feedback signal, leading to a significant temporal delay between the observation of a non-trivial reward and the individual steps of behavior culpable for achieving said reward. Coping with such a credit assignment challenge is one of the hallmark characteristics of reinforcement learning. While prior work has introduced the concept of hindsight policies to develop a theoretically moxtivated method for reweighting on-policy data by impact on achieving the observed trajectory return, we show that these methods experience instabilities which lead to inefficient learning in complex environments. In this work, we adapt existing importance-sampling ratio estimation techniques for off-policy evaluation to drastically improve the stability and efficiency of these so-called hindsight policy methods. Our hindsight distribution correction facilitates stable, efficient learning across a broad range of environments where credit assignment plagues baseline methods.
Abstract（参考訳）: 多くの場合、強化学習エージェントを指導するための評価フィードバックの提供においては、逐次的な意思決定問題のための環境は極めて少ない。極端な場合、行動の長い軌跡は単に単一の終端フィードバック信号で刻み込まれ、非自明な報酬の観察と、その報酬を達成するための個々の行動ステップの間にかなりの時間的遅延が生じる。このような信用課題への対処は、強化学習の目立った特徴の一つである。先行研究では, 複雑な環境下での非効率な学習につながる不安定さを経験し, 予測された軌道回帰の達成に影響を及ぼすことによって, 政治的データの重み付けを理論的にモクティベートする手法を開発するために, 後見政策の概念を導入している。本研究では,既存の重要度サンプリング比推定手法をオフ・ポリシー評価に応用し,いわゆる後見政策手法の安定性と効率を飛躍的に向上させる。私たちの後ろ視分布補正は、クレジット割り当てがベースラインメソッドを悩ませる幅広い環境において、安定して効率的な学習を促進する。

関連論文リスト

Inverse Delayed Reinforcement Learning [10.317802812959808]
Inverse Reinforcement Learning (IRL) は様々な模倣作業において有効性を示した。遅延障害に影響を受ける専門家の軌跡から報奨特徴を抽出するIRLフレームワークを提案する。
論文参考訳（メタデータ） (2024-12-04T00:53:55Z)
Contextual Bandits in Payment Processing: Non-uniform Exploration and Supervised Learning at Adyen [0.0]
回帰オラクルは、一様でない探索と教師あり学習を組み合わせたものである。我々は、大規模なグローバル決済プロセッサであるAdyenにおいて、現実の産業状況におけるこれらのアプローチを分析した。回帰オラクルは性能を著しく向上させるが、厳密なアルゴリズムの仮定による課題を導入する。
論文参考訳（メタデータ） (2024-11-30T19:45:23Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文参考訳（メタデータ） (2024-03-18T14:51:19Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文参考訳（メタデータ） (2023-07-25T21:38:08Z)
Mitigating Off-Policy Bias in Actor-Critic Methods with One-Step Q-learning: A Novel Correction Approach [0.0]
我々は,このような不一致が継続的制御に与える影響を軽減するために,新しい政策類似度尺度を導入する。本手法は、決定論的政策ネットワークに適用可能な、適切な単一ステップのオフ・ポリシー補正を提供する。
論文参考訳（メタデータ） (2022-08-01T11:33:12Z)
Imitating, Fast and Slow: Robust learning from demonstrations via decision-time planning [96.72185761508668]
テストタイムでの計画(IMPLANT)は、模倣学習のための新しいメタアルゴリズムである。 IMPLANTは,標準制御環境において,ベンチマーク模倣学習手法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-07T17:16:52Z)
Imitation Learning by State-Only Distribution Matching [2.580765958706854]
観察からの模倣学習は、人間の学習と同様の方法で政策学習を記述する。本稿では,解釈可能な収束度と性能測定値とともに,非逆学習型観測手法を提案する。
論文参考訳（メタデータ） (2022-02-09T08:38:50Z)
Learning Pessimism for Robust and Efficient Off-Policy Reinforcement Learning [0.0]
時間差学習における過大評価バイアスを補償するオフポリティ深い強化学習アルゴリズム。そこで本研究では,このような悲観主義を実践するために,新たな学習可能なペナルティを提案する。また,2つのTD学習で批判者とともにペナルティを学習することを提案する。
論文参考訳（メタデータ） (2021-10-07T12:13:19Z)
Self-Imitation Advantage Learning [43.8107780378031]
自己模倣学習は、期待以上のリターンのアクションを奨励する強化学習方法です。本稿では,ベルマン最適性演算子を改変したオフポリシーRLの自己模倣学習の新たな一般化を提案する。
論文参考訳（メタデータ） (2020-12-22T13:21:50Z)
Reliable Off-policy Evaluation for Reinforcement Learning [53.486680020852724]
シーケンシャルな意思決定問題において、非政治評価は、目標政策の期待累積報酬を推定する。本稿では、1つまたは複数のログデータを用いて、ロバストで楽観的な累積報酬推定を提供する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-11-08T23:16:19Z)
Accurate and Robust Feature Importance Estimation under Distribution Shifts [49.58991359544005]
PRoFILEは、新しい特徴重要度推定法である。忠実さと頑健さの両面で、最先端のアプローチよりも大幅に改善されていることを示す。
論文参考訳（メタデータ） (2020-09-30T05:29:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。