論文の概要: Dissecting Deep RL with High Update Ratios: Combatting Value
Overestimation and Divergence
- arxiv url: http://arxiv.org/abs/2403.05996v1
- Date: Sat, 9 Mar 2024 19:56:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 11:25:19.448180
- Title: Dissecting Deep RL with High Update Ratios: Combatting Value
Overestimation and Divergence
- Title(参考訳): 高い更新率で分解するdeep rl:値の過大評価と発散と戦う
- Authors: Marcel Hussing, Claas Voelcker, Igor Gilitschenski, Amir-massoud
Farahmand, Eric Eaton
- Abstract要約: 本研究では,ネットワークパラメータをリセットすることなく,勾配更新回数が環境サンプル数よりはるかに多い設定で深層強化学習が学習可能であることを示す。
このような大規模な更新とデータの比率の下で、Nikishinら(2022年)による最近の研究は、エージェントが早期の相互作用と後期の体験に過度に適合する優先バイアスの出現を示唆している。
- 参考スコア(独自算出の注目度): 22.55105343651415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We show that deep reinforcement learning can maintain its ability to learn
without resetting network parameters in settings where the number of gradient
updates greatly exceeds the number of environment samples. Under such large
update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the
emergence of a primacy bias, in which agents overfit early interactions and
downplay later experience, impairing their ability to learn. In this work, we
dissect the phenomena underlying the primacy bias. We inspect the early stages
of training that ought to cause the failure to learn and find that a
fundamental challenge is a long-standing acquaintance: value overestimation.
Overinflated Q-values are found not only on out-of-distribution but also
in-distribution data and can be traced to unseen action prediction propelled by
optimizer momentum. We employ a simple unit-ball normalization that enables
learning under large update ratios, show its efficacy on the widely used
dm_control suite, and obtain strong performance on the challenging dog tasks,
competitive with model-based approaches. Our results question, in parts, the
prior explanation for sub-optimal learning due to overfitting on early data.
- Abstract(参考訳): 深層強化学習は,勾配更新数が環境サンプル数を大きく超える設定において,ネットワークパラメータを再設定することなく,学習能力を維持できることを示す。
このような大規模なデータ更新比の下で、nikishin et al. (2022) による最近の研究は、エージェントが初期の相互作用に過剰に適合し、後の経験を軽視し、学習能力を損なうプライマシーバイアスの出現を示唆した。
本研究では,プライマリーバイアスの根底にある現象を解明する。
学習の失敗の原因となるトレーニングの初期段階を調べ、基本的な課題が長年の知人、すなわち価値の過大評価であることを見出す。
オーバーインフレーションされたQ値は分布外だけでなく分布内データにも見出され、オプティマイザの運動量によって引き起こされる未知の行動予測に追従することができる。
我々は,大規模な更新率で学習し,広く使用されているdm_controlスイート上での有効性を示し,モデルベースアプローチと競合する犬のタスクにおいて強力なパフォーマンスを得るための,単純な単位球正規化を採用している。
以上の結果から,早期データへの過度な適合による準最適学習の事前説明が疑問視された。
関連論文リスト
- Reframing Offline Reinforcement Learning as a Regression Problem [0.0]
本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2024-01-21T23:50:46Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Understanding and Mitigating the Label Noise in Pre-training on
Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。
雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文 参考訳(メタデータ) (2023-09-29T06:18:15Z) - Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。
150の分類データセットを網羅的に検討した。
事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。
事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文 参考訳(メタデータ) (2023-09-11T06:26:57Z) - Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。
対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。
本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文 参考訳(メタデータ) (2023-03-21T15:02:50Z) - TWINS: A Fine-Tuning Framework for Improved Transferability of
Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。
本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。
TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文 参考訳(メタデータ) (2023-03-20T14:12:55Z) - Dynamic Update-to-Data Ratio: Minimizing World Model Overfitting [25.93711502488151]
過度および過度に適合する検出に基づいて,トレーニング中のデータ更新率(UTD)を動的に調整する新しい手法を提案する。
本稿では,最新のモデルベース強化学習アルゴリズムであるDreamerV2に適用し,DeepMind Control SuiteとAtari 100$kベンチマークで評価する。
論文 参考訳(メタデータ) (2023-03-17T17:29:02Z) - SURF: Semi-supervised Reward Learning with Data Augmentation for
Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。
報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。
本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文 参考訳(メタデータ) (2022-03-18T16:50:38Z) - Improved Fine-tuning by Leveraging Pre-training Data: Theory and
Practice [52.11183787786718]
対象データに事前学習されたモデルを微調整することは、多くのディープラーニングアプリケーションで広く利用されている。
近年の研究では、スクラッチからのトレーニングが、この事前トレーニング戦略に比較して、最終的なパフォーマンスを示すことが実証されている。
本稿では,対象タスクの一般化を改善するために,事前学習データからサブセットを選択する新しい選択戦略を提案する。
論文 参考訳(メタデータ) (2021-11-24T06:18:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。