Fugu-MT 論文翻訳(概要): Dissecting Deep RL with High Update Ratios: Combatting Value Divergence

論文の概要: Dissecting Deep RL with High Update Ratios: Combatting Value Divergence

arxiv url: http://arxiv.org/abs/2403.05996v3
Date: Mon, 5 Aug 2024 11:55:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-06 23:26:29.681638
Title: Dissecting Deep RL with High Update Ratios: Combatting Value Divergence
Title（参考訳）: 高い更新率でDeep RLを分離する - 価値の多様性を議論する
Authors: Marcel Hussing, Claas Voelcker, Igor Gilitschenski, Amir-massoud Farahmand, Eric Eaton,
Abstract要約: ネットワークパラメータをリセットすることなく、深層強化学習アルゴリズムが学習能力を維持できることを示す。我々は,大規模な更新率での学習を可能にする,単純な単球正規化を採用している。
参考スコア（独自算出の注目度）: 21.282292112642747
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We show that deep reinforcement learning algorithms can retain their ability to learn without resetting network parameters in settings where the number of gradient updates greatly exceeds the number of environment samples by combatting value function divergence. Under large update-to-data ratios, a recent study by Nikishin et al. (2022) suggested the emergence of a primacy bias, in which agents overfit early interactions and downplay later experience, impairing their ability to learn. In this work, we investigate the phenomena leading to the primacy bias. We inspect the early stages of training that were conjectured to cause the failure to learn and find that one fundamental challenge is a long-standing acquaintance: value function divergence. Overinflated Q-values are found not only on out-of-distribution but also in-distribution data and can be linked to overestimation on unseen action prediction propelled by optimizer momentum. We employ a simple unit-ball normalization that enables learning under large update ratios, show its efficacy on the widely used dm_control suite, and obtain strong performance on the challenging dog tasks, competitive with model-based approaches. Our results question, in parts, the prior explanation for sub-optimal learning due to overfitting early data.
Abstract（参考訳）: 本研究では, ネットワークパラメータをリセットすることなく, 深層強化学習アルゴリズムが学習能力を維持できることを示す。大規模な更新とデータ比の下で、Nikishinらによる2022年の最近の研究は、エージェントが早期の相互作用と後期の体験に過度に適合し、学習能力を損なうという、予備主義バイアスの出現を示唆している。本研究では,プライマリーバイアスの原因となる現象について検討する。学習の失敗の原因と推測されたトレーニングの初期段階を調べ、一つの根本的な課題は長年の知人:値関数の発散であることを示す。オーバーインフレーションされたQ値は分布外だけでなく分布内データにも見出され、オプティマイザ運動量によって推進される見えない動作予測の過大評価に関連付けられる。我々は,大規模な更新率での学習を可能にし,広く使用されているdm_controlスイートで有効性を示し,モデルベースアプローチと競合する課題のドッグタスクにおいて高い性能が得られる,シンプルな単球正規化を採用している。以上の結果から,初期データの過度な適合による準最適学習の事前説明が疑問視された。

関連論文リスト

Spectral Imbalance Causes Forgetting in Low-Rank Continual Adaptation [58.3773038915023]
継続的な学習は、事前訓練されたモデルを、以前取得した知識を忘れずにシーケンシャルなタスクに適応することを目的としている。既存のほとんどのアプローチは、現在のタスク固有の更新が以前取得した知識を自然に保存するプロパティを考慮せずに、継続的な学習を過去の更新への干渉を避けるものとして扱う。本稿では,視覚言語モデルで使用される標準深度ドットと互換性のある一階述語法を用いてこの問題に対処する。
論文参考訳（メタデータ） (2026-01-31T13:27:02Z)
In-Context Linear Regression Demystified: Training Dynamics and Mechanistic Interpretability of Multi-Head Softmax Attention [52.159541540613915]
本研究では,マルチヘッド型ソフトマックスアテンションモデルを用いて,線形データを用いたコンテキスト内学習を行う方法について検討する。この結果から,学習内容の学習能力は,そのアーキテクチャと基礎となるデータ分布の集約的効果として,訓練されたトランスフォーマーから出現することが明らかとなった。
論文参考訳（メタデータ） (2025-03-17T02:00:49Z)
MAD-TD: Model-Augmented Data stabilizes High Update Ratio RL [20.22674077197914]
最近の研究は、新しいサンプルごとに多数の勾配ステップを持つニューラルネットワークの更新について検討している。高い更新とデータの比率は、トレーニングプロセスに不安定をもたらす。時間差分学習のためのモデル拡張データ(MAD-TD)は,少数の生成データを用いて高UTDトレーニングを安定化する。
論文参考訳（メタデータ） (2024-10-11T15:13:17Z)
Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文参考訳（メタデータ） (2024-10-10T10:58:41Z)
ReAugment: Model Zoo-Guided RL for Few-Shot Time Series Augmentation and Forecasting [74.00765474305288]
本稿では,時系列データ拡張のための強化学習(RL)の試験的検討を行う。我々の手法であるReAugmentは、トレーニングセットのどの部分が拡張されるべきか、どのように拡張を行うべきか、RLがプロセスにどのような利点をもたらすのか、という3つの重要な問題に取り組む。
論文参考訳（メタデータ） (2024-09-10T07:34:19Z)
Federated Class-Incremental Learning with Hierarchical Generative Prototypes [10.532838477096055]
Federated Learning (FL)は、複数のデバイス(クライアント)に分散した計算をすることで、ディープモデルのトレーニングを解き放つことを目的としている。提案手法は,学習可能なプロンプトを用いてトレーニング済みのバックボーンを効率よく微調整することにより,最終層のバイアスを抑える。提案手法は現状を著しく改善し, 平均精度は+7.8%向上した。
論文参考訳（メタデータ） (2024-06-04T16:12:27Z)
Enhancing Consistency and Mitigating Bias: A Data Replay Approach for Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文参考訳（メタデータ） (2024-01-12T12:51:12Z)
Directly Attention Loss Adjusted Prioritized Experience Replay [0.07366405857677226]
優先度付き再生体験(PER)は、アクセス頻度を人工的に変化させることで、比較的重要なサンプルについてより深く学習することを可能にする。 DALAPが提案され、パラレル自己保持ネットワークを通じて、シフト分布の変化範囲を直接定量化することができる。
論文参考訳（メタデータ） (2023-11-24T10:14:05Z)
Understanding, Predicting and Better Resolving Q-Value Divergence in Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文参考訳（メタデータ） (2023-10-06T17:57:44Z)
Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks [91.15120211190519]
本稿では、事前学習データセットにおけるノイズの性質を理解し、下流タスクへの影響を軽減することを目的とする。雑音の悪影響を軽減するために特徴空間に適応する軽量ブラックボックスチューニング法(NMTune)を提案する。
論文参考訳（メタデータ） (2023-09-29T06:18:15Z)
Examining the Effect of Pre-training on Time Series Classification [21.38211396933795]
本研究では, プレトレーニング後の微調整が微調整過程に及ぼす影響について検討した。 150の分類データセットを網羅的に検討した。事前学習は、データに適合しないモデルの最適化プロセスを改善するのにしか役立ちません。事前学習データを追加することで一般化は向上しないが、元のデータボリュームの事前学習の利点を強化することができる。
論文参考訳（メタデータ） (2023-09-11T06:26:57Z)
Time Series Contrastive Learning with Information-Aware Augmentations [57.45139904366001]
コントラスト学習の鍵となる要素は、いくつかの先行を示唆する適切な拡張を選択して、実現可能な正のサンプルを構築することである。対照的な学習タスクやデータセットに意味のある時系列データの増大をどうやって見つけるかは、未解決の問題である。本稿では,時系列表現学習のための最適な拡張を適応的に選択する情報認識拡張を用いた新しいコントラスト学習手法であるInfoTSを提案する。
論文参考訳（メタデータ） (2023-03-21T15:02:50Z)
TWINS: A Fine-Tuning Framework for Improved Transferability of Adversarial Robustness and Generalization [89.54947228958494]
本稿では,様々な分類タスクにおいて,逆向きに事前訓練されたモデルの微調整に焦点を当てる。本稿では,TWINS(Two-WIng NormliSation)ファインチューニングフレームワークを提案する。 TWINSは、一般化とロバスト性の両方の観点から、幅広い画像分類データセットに有効であることが示されている。
論文参考訳（メタデータ） (2023-03-20T14:12:55Z)
SURF: Semi-supervised Reward Learning with Data Augmentation for Feedback-efficient Preference-based Reinforcement Learning [168.89470249446023]
我々は、大量のラベルなしサンプルとデータ拡張を利用する半教師付き報酬学習フレームワークSURFを提案する。報奨学習にラベルのないサンプルを活用するために,選好予測器の信頼性に基づいてラベルのないサンプルの擬似ラベルを推定する。本実験は, ロボット操作作業における嗜好に基づく手法のフィードバック効率を有意に向上させることを実証した。
論文参考訳（メタデータ） (2022-03-18T16:50:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。