論文の概要: The Fallacy of Minimizing Local Regret in the Sequential Task Setting
- arxiv url: http://arxiv.org/abs/2403.10946v1
- Date: Sat, 16 Mar 2024 15:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:56:18.170881
- Title: The Fallacy of Minimizing Local Regret in the Sequential Task Setting
- Title(参考訳): シークエンシャルタスク設定における局所レギュレット最小化の誤り
- Authors: Ziping Xu, Kelly W. Zhang, Susan A. Murphy,
- Abstract要約: 強化学習(RL)はしばしば最適化問題として概念化され、アルゴリズムが未知の環境と相互作用して累積的後悔を最小限に抑える。
報奨設計の変更や許容可能な政策空間を含む結果分布以外の変化について検討する。
結果から,結果分布が同じである場合でも,各タスクにおける後悔を最小限に抑えることが示唆された。
この理論的な洞察は事実上重要であり、例えば、タスク間の予期しない変化(例えば、迅速な技術開発や、ループへの人間的関与)のために、アルゴリズムは、各タスク内の通常の定常的な設定よりも多くを探索する必要があることを示唆している。
- 参考スコア(独自算出の注目度): 11.834850394160608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of Reinforcement Learning (RL), online RL is often conceptualized as an optimization problem, where an algorithm interacts with an unknown environment to minimize cumulative regret. In a stationary setting, strong theoretical guarantees, like a sublinear ($\sqrt{T}$) regret bound, can be obtained, which typically implies the convergence to an optimal policy and the cessation of exploration. However, these theoretical setups often oversimplify the complexities encountered in real-world RL implementations, where tasks arrive sequentially with substantial changes between tasks and the algorithm may not be allowed to adaptively learn within certain tasks. We study the changes beyond the outcome distributions, encompassing changes in the reward designs (mappings from outcomes to rewards) and the permissible policy spaces. Our results reveal the fallacy of myopically minimizing regret within each task: obtaining optimal regret rates in the early tasks may lead to worse rates in the subsequent ones, even when the outcome distributions stay the same. To realize the optimal cumulative regret bound across all the tasks, the algorithm has to overly explore in the earlier tasks. This theoretical insight is practically significant, suggesting that due to unanticipated changes (e.g., rapid technological development or human-in-the-loop involvement) between tasks, the algorithm needs to explore more than it would in the usual stationary setting within each task. Such implication resonates with the common practice of using clipped policies in mobile health clinical trials and maintaining a fixed rate of $\epsilon$-greedy exploration in robotic learning.
- Abstract(参考訳): 強化学習(RL)の領域では、オンラインRLはしばしば最適化問題として概念化され、アルゴリズムが未知の環境と相互作用して累積的後悔を最小限に抑える。
定常的な設定では、部分線型($\sqrt{T}$)後悔境界のような強い理論的保証が得られ、これは典型的には最適なポリシーへの収束と探索の停止を意味する。
しかしながら、これらの理論的な設定は、実際のRL実装で遭遇する複雑さを単純化し、タスク間の実質的な変化とともにタスクが順次到着し、アルゴリズムは特定のタスク内で適応的に学習することが許されない。
結果分布を超えて、報酬デザインの変更(成果から報酬へのマッピング)と許容可能な政策空間について検討する。
結果から,各タスクにおける後悔の最小化は,初期タスクにおいて最適な後悔率を得ることで,結果分布が同じであっても,その後のタスクでは悪化する可能性が示唆された。
全てのタスクにまたがる最適な累積的後悔を実現するために、アルゴリズムは以前のタスクを過度に探索する必要がある。
この理論的な洞察は事実上重要であり、タスク間の予期せぬ変化(例えば、迅速な技術開発や、ループへの人間的関与)のために、アルゴリズムは各タスク内の通常の定常的な設定よりも多くを探索する必要があることを示唆している。
このような意味合いは、モバイルヘルス臨床試験でクリップされたポリシーを使用し、ロボット学習において$\epsilon$-greedyの探索を一定の割合で維持するという一般的な慣習と一致している。
関連論文リスト
- Towards Robust Continual Learning with Bayesian Adaptive Moment Regularization [51.34904967046097]
継続的な学習は破滅的な忘れ込みという課題を克服しようと試み、そこでは新しいタスクを解くための学習が、モデルが以前に学習した情報を忘れる原因となる。
本稿では,パラメータ成長の制約を緩和し,破滅的な忘れ込みを抑える新しい事前手法を提案する。
以上の結果から, BAdamは, 単頭クラスインクリメンタル実験に挑戦する先行手法に対して, 最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-09-15T17:10:51Z) - Curriculum Reinforcement Learning using Optimal Transport via Gradual
Domain Adaptation [46.103426976842336]
強化学習(CRL)は、簡単なタスクから始まり、徐々に難しいタスクへと学習する一連のタスクを作成することを目的としている。
本研究では、ソース(補助的)とターゲットタスク分布の間のカリキュラムとしてCRLをフレーミングするという考え方に焦点をあてる。
半教師付き学習における段階的ドメイン適応の洞察に触発されて、CRLのタスク分散シフトを小さなシフトに分解することで、自然なカリキュラムを作成する。
論文 参考訳(メタデータ) (2022-10-18T22:33:33Z) - Neuroevolution is a Competitive Alternative to Reinforcement Learning
for Skill Discovery [12.586875201983778]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な制御タスクを解決するために神経ポリシーをトレーニングするための強力なパラダイムとして登場した。
品質多様性(QD)手法は,スキル発見のための情報理論強化RLの代替手段であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:06:39Z) - In Defense of the Unitary Scalarization for Deep Multi-Task Learning [121.76421174107463]
本稿では,多くの特殊マルチタスクを正規化の形式として解釈できることを示唆する理論解析について述べる。
標準正規化と安定化技術と組み合わせると、ユニタリスカラー化は複雑なマルチタスクの性能にマッチし、改善することを示す。
論文 参考訳(メタデータ) (2022-01-11T18:44:17Z) - New Tight Relaxations of Rank Minimization for Multi-Task Learning [161.23314844751556]
2つの正規化項に基づく2つの新しいマルチタスク学習定式化を提案する。
本手法は,タスク間で共有される低ランク構造を正確に復元し,関連するマルチタスク学習方法より優れていることを示す。
論文 参考訳(メタデータ) (2021-12-09T07:29:57Z) - Conflict-Averse Gradient Descent for Multi-task Learning [56.379937772617]
マルチタスクモデルを最適化する際の大きな課題は、矛盾する勾配である。
本稿では、平均損失関数を最小化する衝突-逆勾配降下(CAGrad)を導入する。
CAGradは目標を自動的にバランスし、平均損失よりも最小限に確実に収束する。
論文 参考訳(メタデータ) (2021-10-26T22:03:51Z) - Minimum-Delay Adaptation in Non-Stationary Reinforcement Learning via
Online High-Confidence Change-Point Detection [7.685002911021767]
非定常環境におけるポリシーを効率的に学習するアルゴリズムを導入する。
これは、リアルタイム、高信頼な変更点検出統計において、潜在的に無限のデータストリームと計算を解析する。
i) このアルゴリズムは, 予期せぬ状況変化が検出されるまでの遅延を最小限に抑え, 迅速な応答を可能にする。
論文 参考訳(メタデータ) (2021-05-20T01:57:52Z) - Optimization and Generalization of Regularization-Based Continual
Learning: a Loss Approximation Viewpoint [35.5156045701898]
各タスクの損失関数の2階Taylor近似として定式化することにより、正規化に基づく連続学習の新しい視点を提供する。
この観点から、正規化に基づく連続学習の最適化側面(収束)と一般化特性(有限サンプル保証)を考察する。
論文 参考訳(メタデータ) (2020-06-19T06:08:40Z) - Learning Adaptive Exploration Strategies in Dynamic Environments Through
Informed Policy Regularization [100.72335252255989]
本研究では,動的環境に効果的に適応する探索探索探索戦略の課題について検討する。
本稿では,各タスクにおける報酬を最大化するために訓練された情報ポリシを用いて,RNNベースのポリシーのトレーニングを規則化する新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-06T16:14:48Z) - Hierarchical Reinforcement Learning as a Model of Human Task
Interleaving [60.95424607008241]
我々は、強化学習によって駆動される監督制御の階層モデルを開発する。
このモデルは、タスクインターリービングの既知の経験的効果を再現する。
その結果、階層的RLがタスクインターリービングのもっともらしいモデルとして支持された。
論文 参考訳(メタデータ) (2020-01-04T17:53:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。