論文の概要: The Fallacy of Minimizing Local Regret in the Sequential Task Setting
- arxiv url: http://arxiv.org/abs/2403.10946v1
- Date: Sat, 16 Mar 2024 15:29:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 20:56:18.170881
- Title: The Fallacy of Minimizing Local Regret in the Sequential Task Setting
- Title(参考訳): シークエンシャルタスク設定における局所レギュレット最小化の誤り
- Authors: Ziping Xu, Kelly W. Zhang, Susan A. Murphy,
- Abstract要約: 強化学習(RL)はしばしば最適化問題として概念化され、アルゴリズムが未知の環境と相互作用して累積的後悔を最小限に抑える。
報奨設計の変更や許容可能な政策空間を含む結果分布以外の変化について検討する。
結果から,結果分布が同じである場合でも,各タスクにおける後悔を最小限に抑えることが示唆された。
この理論的な洞察は事実上重要であり、例えば、タスク間の予期しない変化(例えば、迅速な技術開発や、ループへの人間的関与)のために、アルゴリズムは、各タスク内の通常の定常的な設定よりも多くを探索する必要があることを示唆している。
- 参考スコア(独自算出の注目度): 11.834850394160608
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the realm of Reinforcement Learning (RL), online RL is often conceptualized as an optimization problem, where an algorithm interacts with an unknown environment to minimize cumulative regret. In a stationary setting, strong theoretical guarantees, like a sublinear ($\sqrt{T}$) regret bound, can be obtained, which typically implies the convergence to an optimal policy and the cessation of exploration. However, these theoretical setups often oversimplify the complexities encountered in real-world RL implementations, where tasks arrive sequentially with substantial changes between tasks and the algorithm may not be allowed to adaptively learn within certain tasks. We study the changes beyond the outcome distributions, encompassing changes in the reward designs (mappings from outcomes to rewards) and the permissible policy spaces. Our results reveal the fallacy of myopically minimizing regret within each task: obtaining optimal regret rates in the early tasks may lead to worse rates in the subsequent ones, even when the outcome distributions stay the same. To realize the optimal cumulative regret bound across all the tasks, the algorithm has to overly explore in the earlier tasks. This theoretical insight is practically significant, suggesting that due to unanticipated changes (e.g., rapid technological development or human-in-the-loop involvement) between tasks, the algorithm needs to explore more than it would in the usual stationary setting within each task. Such implication resonates with the common practice of using clipped policies in mobile health clinical trials and maintaining a fixed rate of $\epsilon$-greedy exploration in robotic learning.
- Abstract(参考訳): 強化学習(RL)の領域では、オンラインRLはしばしば最適化問題として概念化され、アルゴリズムが未知の環境と相互作用して累積的後悔を最小限に抑える。
定常的な設定では、部分線型($\sqrt{T}$)後悔境界のような強い理論的保証が得られ、これは典型的には最適なポリシーへの収束と探索の停止を意味する。
しかしながら、これらの理論的な設定は、実際のRL実装で遭遇する複雑さを単純化し、タスク間の実質的な変化とともにタスクが順次到着し、アルゴリズムは特定のタスク内で適応的に学習することが許されない。
結果分布を超えて、報酬デザインの変更(成果から報酬へのマッピング)と許容可能な政策空間について検討する。
結果から,各タスクにおける後悔の最小化は,初期タスクにおいて最適な後悔率を得ることで,結果分布が同じであっても,その後のタスクでは悪化する可能性が示唆された。
全てのタスクにまたがる最適な累積的後悔を実現するために、アルゴリズムは以前のタスクを過度に探索する必要がある。
この理論的な洞察は事実上重要であり、タスク間の予期せぬ変化(例えば、迅速な技術開発や、ループへの人間的関与)のために、アルゴリズムは各タスク内の通常の定常的な設定よりも多くを探索する必要があることを示唆している。
このような意味合いは、モバイルヘルス臨床試験でクリップされたポリシーを使用し、ロボット学習において$\epsilon$-greedyの探索を一定の割合で維持するという一般的な慣習と一致している。
関連論文リスト
- Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - Reduced Policy Optimization for Continuous Control with Hard Constraints [14.141467234397256]
我々は、RLと一般的な制約を組み合わせた新しい制約付きRLアルゴリズムを提案する。
これらのベンチマークでは、RPOは報酬と制約違反の両方の観点から、以前の制約付きRLアルゴリズムよりも優れたパフォーマンスを達成する。
RPOは、新しいベンチマークとともに、現実世界の問題に複雑な制約を適用する新たな機会を開くと信じています。
論文 参考訳(メタデータ) (2023-10-14T12:55:43Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path [40.4378338001229]
本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
論文 参考訳(メタデータ) (2022-06-06T15:24:06Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。