論文の概要: The Fallacy of Minimizing Cumulative Regret in the Sequential Task Setting
- arxiv url: http://arxiv.org/abs/2403.10946v2
- Date: Thu, 24 Oct 2024 20:04:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-28 13:35:15.070529
- Title: The Fallacy of Minimizing Cumulative Regret in the Sequential Task Setting
- Title(参考訳): 逐次タスク設定における累積レグレット最小化の誤り
- Authors: Ziping Xu, Kelly W. Zhang, Susan A. Murphy,
- Abstract要約: 現実世界のRLアプリケーションでは、タスク間のヒューマン・イン・ザ・ループの決定は、しばしば非定常性をもたらす。
以上の結果から, 課題非定常性は, 累積後悔(CR)と単純後悔(SR)との間により制限的なトレードオフをもたらすことが明らかとなった。
これらの知見は,タスク変更に対応するためには,非定常環境における探索の増加が必要であることを示唆している。
- 参考スコア(独自算出の注目度): 11.834850394160608
- License:
- Abstract: Online Reinforcement Learning (RL) is typically framed as the process of minimizing cumulative regret (CR) through interactions with an unknown environment. However, real-world RL applications usually involve a sequence of tasks, and the data collected in the first task is used to warm-start the second task. The performance of the warm-start policy is measured by simple regret (SR). While minimizing both CR and SR is generally a conflicting objective, previous research has shown that in stationary environments, both can be optimized in terms of the duration of the task, $T$. In practice, however, in real-world applications, human-in-the-loop decisions between tasks often results in non-stationarity. For instance, in clinical trials, scientists may adjust target health outcomes between implementations. Our results show that task non-stationarity leads to a more restrictive trade-off between CR and SR. To balance these competing goals, the algorithm must explore excessively, leading to a CR bound worse than the typical optimal rate of $T^{1/2}$. These findings are practically significant, indicating that increased exploration is necessary in non-stationary environments to accommodate task changes, impacting the design of RL algorithms in fields such as healthcare and beyond.
- Abstract(参考訳): オンライン強化学習(英語: Online Reinforcement Learning, RL)は、通常、未知の環境との相互作用を通じて、累積後悔(CR)を最小化するプロセスである。
しかしながら、現実のRLアプリケーションは、通常、一連のタスクを伴い、第1のタスクで収集されたデータは、第2のタスクをウォームスタートするために使用される。
ウォームスタートポリシのパフォーマンスは、単純な後悔(SR)によって測定される。
CRとSRの双方を最小化することは概して矛盾する目標であるが、以前の研究では、静止環境では、どちらもタスクの持続時間($T$)で最適化可能であることが示されている。
しかし実際には、現実のアプリケーションでは、タスク間のヒューマン・イン・ザ・ループの決定は、しばしば非定常性をもたらす。
例えば、臨床試験では、科学者は実装間で標的となる健康結果を調整することができる。
以上の結果から,タスク非定常性がCRとSRとのトレードオフをより限定的に引き起こすことが示唆された。
これらの競合する目標のバランスをとるためには、アルゴリズムは過度に探索し、CR境界は典型的な最適速度である$T^{1/2}$よりも悪くなる。
これらの知見は,医療などの分野におけるRLアルゴリズムの設計に影響を及ぼし,課題変化に対応するためには,非定常環境における探索の増加が必要であることを示唆している。
関連論文リスト
- Unified Active Retrieval for Retrieval Augmented Generation [69.63003043712696]
Retrieval-Augmented Generation (RAG)では、検索は必ずしも役に立たない。
既存のアクティブ検索手法は2つの課題に直面している。
彼らは通常、様々な種類の命令を扱うのに苦労する単一の基準に頼っている。
それらは特殊で高度に区別された手順に依存しており、それらを組み合わせることでRAGシステムはより複雑になる。
論文 参考訳(メタデータ) (2024-06-18T12:09:02Z) - MOSEAC: Streamlined Variable Time Step Reinforcement Learning [14.838483990647697]
マルチ目的ソフト・エクササイズ・アクタ・クライブ法(MOSEAC)を提案する。
MOSEACは、トレーニング中のタスク報酬の観測傾向に基づく適応型報酬スキームを特徴とする。
ニュートンのキネマティクス環境におけるシミュレーションによりMOSEAC法の有効性を検証した。
論文 参考訳(メタデータ) (2024-06-03T16:51:57Z) - Reduced Policy Optimization for Continuous Control with Hard Constraints [14.141467234397256]
我々は、RLと一般的な制約を組み合わせた新しい制約付きRLアルゴリズムを提案する。
これらのベンチマークでは、RPOは報酬と制約違反の両方の観点から、以前の制約付きRLアルゴリズムよりも優れたパフォーマンスを達成する。
RPOは、新しいベンチマークとともに、現実世界の問題に複雑な制約を適用する新たな機会を開くと信じています。
論文 参考訳(メタデータ) (2023-10-14T12:55:43Z) - Task-specific experimental design for treatment effect estimation [59.879567967089145]
因果推論の標準は大規模ランダム化試験(RCT)である。
近年の研究では、RCTのよりサンプル効率の良い代替案が提案されているが、これらは因果効果を求める下流の応用には適用できない。
実験的な設計のためのタスク固有のアプローチを開発し、特定の下流アプリケーションにカスタマイズされたサンプリング戦略を導出する。
論文 参考訳(メタデータ) (2023-06-08T18:10:37Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - CLUTR: Curriculum Learning via Unsupervised Task Representation Learning [130.79246770546413]
CLUTRは、タスク表現とカリキュラム学習を2段階最適化に分離する、新しいカリキュラム学習アルゴリズムである。
CLUTRは、CarRacingとナビゲーション環境における一般化とサンプル効率の観点から、原則的かつ一般的なUED手法であるPAIREDよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-19T01:45:29Z) - Provably Efficient Risk-Sensitive Reinforcement Learning: Iterated CVaR
and Worst Path [40.4378338001229]
本稿では,各段階における報酬対ゴーのテールを最大化することを目的とした,反復型CVaR RL(Iterated CVaR RL)という,新たなエピソード型リスク感応型強化学習(RL)問題について検討する。
この定式化は、意思決定プロセスを通して強いリスク回避を要求する現実世界のタスクに適用できる。
論文 参考訳(メタデータ) (2022-06-06T15:24:06Z) - Self-supervised Representation Learning with Relative Predictive Coding [102.93854542031396]
Relative Predictive Coding(RPC)は、新しいコントラスト表現学習目標である。
RPCは、トレーニング安定性、ミニバッチサイズ感度、ダウンストリームタスクパフォーマンスのバランスが良好である。
ベンチマークビジョンと音声自己教師型学習タスクにおけるRPCの有効性を実証的に検証する。
論文 参考訳(メタデータ) (2021-03-21T01:04:24Z) - CRPO: A New Approach for Safe Reinforcement Learning with Convergence
Guarantee [61.176159046544946]
安全強化学習(SRL)問題では、エージェントは期待される全報酬を最大化し、一定の制約の違反を避けるために環境を探索する。
これは、大域的最適ポリシーを持つSRLアルゴリズムの最初の分析である。
論文 参考訳(メタデータ) (2020-11-11T16:05:14Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。