論文の概要: Doubly Mild Generalization for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2411.07934v2
- Date: Wed, 13 Nov 2024 06:34:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-14 12:31:43.657603
- Title: Doubly Mild Generalization for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のための二重軽度一般化
- Authors: Yixiu Mao, Qi Wang, Yun Qu, Yuhang Jiang, Xiangyang Ji,
- Abstract要約: 我々は,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることを実証した。
本研究では, (i) 軽度行動一般化と (ii) 軽度一般化伝搬からなる二重軽度一般化(DMG)を提案する。
DMGはGym-MuJoCoタスク間の最先端のパフォーマンスを実現し、AntMazeタスクに挑戦する。
- 参考スコア(独自算出の注目度): 50.084440946096
- License:
- Abstract: Offline Reinforcement Learning (RL) suffers from the extrapolation error and value overestimation. From a generalization perspective, this issue can be attributed to the over-generalization of value functions or policies towards out-of-distribution (OOD) actions. Significant efforts have been devoted to mitigating such generalization, and recent in-sample learning approaches have further succeeded in entirely eschewing it. Nevertheless, we show that mild generalization beyond the dataset can be trusted and leveraged to improve performance under certain conditions. To appropriately exploit generalization in offline RL, we propose Doubly Mild Generalization (DMG), comprising (i) mild action generalization and (ii) mild generalization propagation. The former refers to selecting actions in a close neighborhood of the dataset to maximize the Q values. Even so, the potential erroneous generalization can still be propagated, accumulated, and exacerbated by bootstrapping. In light of this, the latter concept is introduced to mitigate the generalization propagation without impeding the propagation of RL learning signals. Theoretically, DMG guarantees better performance than the in-sample optimal policy in the oracle generalization scenario. Even under worst-case generalization, DMG can still control value overestimation at a certain level and lower bound the performance. Empirically, DMG achieves state-of-the-art performance across Gym-MuJoCo locomotion tasks and challenging AntMaze tasks. Moreover, benefiting from its flexibility in both generalization aspects, DMG enjoys a seamless transition from offline to online learning and attains strong online fine-tuning performance.
- Abstract(参考訳): オフライン強化学習(RL)は外挿誤差と値過大評価に悩まされる。
一般化の観点からは、この問題は価値関数の過度な一般化や、アウト・オブ・ディストリビューション(OOD)アクションに対するポリシーに起因する可能性がある。
このような一般化を緩和するために重要な努力が注がれており、最近のインサンプルラーニングアプローチは、さらにそれを完全に改善することに成功している。
それでも,データセットを越えた軽度の一般化を信頼し,一定の条件下での性能向上に活用できることが示される。
オフラインRLにおける一般化を適切に活用するために、Double Mild Generalization (DMG)を提案する。
一 軽度な行動一般化及び
(II)緩やかな一般化伝播
前者はデータセットの近傍でQ値の最大化のためにアクションを選択することを指す。
それでも、潜在的な誤った一般化は、ブートストラップによって伝播し、蓄積し、さらに悪化させることができる。
これを踏まえて、RL学習信号の伝播を妨げることなく一般化伝播を軽減するために後者の概念を導入する。
理論的には、DMGはオラクル一般化シナリオにおけるサンプル内最適ポリシーよりも優れた性能を保証する。
最悪の一般化であっても、DMGは特定のレベルで値過大評価を制御でき、性能を低くすることができる。
実証的には、DMGはGym-MuJoCoのロコモーションタスクとAntMazeタスクに挑戦して最先端のパフォーマンスを達成する。
さらに、両方の一般化面における柔軟性から恩恵を受け、DMGはオフラインからオンライン学習へのシームレスな移行を享受し、オンラインの微調整のパフォーマンスを向上します。
関連論文リスト
- Zero-Shot Generalization of Vision-Based RL Without Data Augmentation [11.820012065797917]
視覚に基づく強化学習(RL)エージェントを新しい環境に一般化することは、依然として困難かつオープンな課題である。
本稿では、ゼロショットの一般化に向けて、標準のオフポリチックRLの上に構築されたアソシエーション・ラテント・ディスタン・アングルメント(ALDA)モデルを提案する。
論文 参考訳(メタデータ) (2024-10-09T21:14:09Z) - Rethinking Multi-domain Generalization with A General Learning Objective [19.28143363034362]
マルチドメイン一般化(mDG)は、トレーニングとテストディストリビューションの相違を最小限にすることを目的としている。
既存のmDG文献には、一般的な学習目標パラダイムが欠けている。
制約緩和に$Y$-mappingを活用することを提案する。
論文 参考訳(メタデータ) (2024-02-29T05:00:30Z) - A Unified Approach to Controlling Implicit Regularization via Mirror
Descent [18.536453909759544]
ミラー降下(MD)は勾配降下(GD)の顕著な一般化である
MDを効率的に実装することができ、適切な条件下での高速収束を享受できることを示す。
論文 参考訳(メタデータ) (2023-06-24T03:57:26Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Provable Generalization of Overparameterized Meta-learning Trained with
SGD [62.892930625034374]
我々は、広く使われているメタラーニング手法、モデル非依存メタラーニング(MAML)の一般化について研究する。
我々は、MAMLの過大なリスクに対して、上界と下界の両方を提供し、SGDダイナミクスがこれらの一般化境界にどのように影響するかをキャプチャする。
理論的知見は実験によってさらに検証される。
論文 参考訳(メタデータ) (2022-06-18T07:22:57Z) - DR3: Value-Based Deep Reinforcement Learning Requires Explicit
Regularization [125.5448293005647]
教師付き学習で見られるSGDの暗黙的な正則化効果が、オフラインの深いRLでは有害である可能性について論じる。
我々の理論的解析は、暗黙正則化の既存のモデルが時間差分学習に適用された場合、導出正規化器は退化解を好むことを示している。
我々は、この暗黙的正則化の望ましくない効果に対処する、DR3と呼ばれる単純で効果的な明示的正則化器を提案する。
論文 参考訳(メタデータ) (2021-12-09T06:01:01Z) - Stochastic Training is Not Necessary for Generalization [57.04880404584737]
勾配降下の暗黙的な正則化(SGD)は、ニューラルネットワークで観測される印象的な一般化の振る舞いに基礎的であると広く信じられている。
本研究では,SGDと同等のCIFAR-10において,非確率的フルバッチトレーニングが強力な性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-09-29T00:50:00Z) - Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning [81.15016852963676]
オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
論文 参考訳(メタデータ) (2021-07-03T11:00:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。