論文の概要: Adaptive Regularization of Representation Rank as an Implicit Constraint of Bellman Equation
- arxiv url: http://arxiv.org/abs/2404.12754v1
- Date: Fri, 19 Apr 2024 10:00:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 15:26:30.767162
- Title: Adaptive Regularization of Representation Rank as an Implicit Constraint of Bellman Equation
- Title(参考訳): ベルマン方程式の帰納的制約としての表現ランクの適応正規化
- Authors: Qiang He, Tianyi Zhou, Meng Fang, Setareh Maghsudi,
- Abstract要約: 表現ランクの適応制御の指針となる原理を見いだす。
我々は,新しい正規化器,すなわち BEER (Bellman Equation-based Automatic rank Regularizer) を提案する。
BEERは適応的に表現ランクを調整し、DRLエージェントの性能を向上させる。
- 参考スコア(独自算出の注目度): 40.88431931273978
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representation rank is an important concept for understanding the role of Neural Networks (NNs) in Deep Reinforcement learning (DRL), which measures the expressive capacity of value networks. Existing studies focus on unboundedly maximizing this rank; nevertheless, that approach would introduce overly complex models in the learning, thus undermining performance. Hence, fine-tuning representation rank presents a challenging and crucial optimization problem. To address this issue, we find a guiding principle for adaptive control of the representation rank. We employ the Bellman equation as a theoretical foundation and derive an upper bound on the cosine similarity of consecutive state-action pairs representations of value networks. We then leverage this upper bound to propose a novel regularizer, namely BEllman Equation-based automatic rank Regularizer (BEER). This regularizer adaptively regularizes the representation rank, thus improving the DRL agent's performance. We first validate the effectiveness of automatic control of rank on illustrative experiments. Then, we scale up BEER to complex continuous control tasks by combining it with the deterministic policy gradient method. Among 12 challenging DeepMind control tasks, BEER outperforms the baselines by a large margin. Besides, BEER demonstrates significant advantages in Q-value approximation. Our code is available at https://github.com/sweetice/BEER-ICLR2024.
- Abstract(参考訳): 表現ランクは、価値ネットワークの表現能力を測定する深層強化学習(DRL)におけるニューラルネットワーク(NN)の役割を理解するための重要な概念である。
既存の研究では、このランクを無制限に最大化することに焦点が当てられているが、それでもそのアプローチは学習に過度に複雑なモデルを導入し、パフォーマンスを損なうことになる。
したがって、微調整表現ランクは困難かつ決定的な最適化問題を示す。
この問題に対処するために、表現ランクの適応制御のための指針原理を見出した。
ベルマン方程式を理論的基礎として使用し、連続状態-作用対のコサイン類似性に基づく値ネットワークの上界を導出する。
次に、この上限を利用して新しい正規化器、すなわち BEER (Bellman Equation-based Automatic rank Regularizer) を提案する。
この正規化器は、表現ランクを適応的に正規化し、DRLエージェントの性能を向上させる。
まず,評価実験におけるランクの自動制御の有効性を検証する。
そして、決定論的ポリシー勾配法と組み合わせることで、BEERを複雑な連続制御タスクにスケールアップする。
難易度の高いDeepMindコントロールタスク12つのうち、BEERはベースラインを大きなマージンで上回っている。
さらに、BEERはQ値近似において大きな利点を示す。
私たちのコードはhttps://github.com/sweetice/BEER-ICLR2024で利用可能です。
関連論文リスト
- On The Global Convergence Of Online RLHF With Neural Parametrization [36.239015146313136]
Reinforcement Learning from Human Feedback (RLHF)は、大きな言語モデルと人間の価値を結びつけることを目的としている。
RLHFは、教師付き微調整、報酬学習、政策学習を含む3段階のプロセスである。
本稿では、パラメータ化設定におけるAIアライメントのための2段階の定式化を提案し、この問題を解決するための一階法を提案する。
論文 参考訳(メタデータ) (2024-10-21T03:13:35Z) - REBEL: A Regularization-Based Solution for Reward Overoptimization in Robotic Reinforcement Learning from Human Feedback [61.54791065013767]
報酬関数とユーザの意図、価値観、社会的規範の相違は、現実世界で破滅的なものになる可能性がある。
人間の嗜好から報酬関数を学習することで、このミスアライメント作業を軽減するための現在の方法。
本稿では,ロボットRLHFフレームワークにおける報酬正規化の新たな概念を提案する。
論文 参考訳(メタデータ) (2023-12-22T04:56:37Z) - Robust Low-Rank Matrix Completion via a New Sparsity-Inducing
Regularizer [30.920908325825668]
本稿では,ハイブリッド常連Welsch (HOW) に新たな損失関数を提案する。
論文 参考訳(メタデータ) (2023-10-07T09:47:55Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Forward and inverse reinforcement learning sharing network weights and
hyperparameters [3.705785916791345]
ERILは、エントロピー規則化マルコフ決定プロセスの枠組みの下で、前方および逆強化学習(RL)を組み合わせる。
前部RLステップは、逆RLステップによって推定される逆KLを最小化する。
逆KL分岐の最小化は最適ポリシーの発見と等価であることを示す。
論文 参考訳(メタデータ) (2020-08-17T13:12:44Z) - Stochastic Batch Augmentation with An Effective Distilled Dynamic Soft
Label Regularizer [11.153892464618545]
本稿では,これらの問題に対処するBatch Augmentation Safety of Generalization(SBA)というフレームワークを提案する。
SBAは、バッチスケジューラによって制御されるイテレーションを拡大するか、動的ソフトレギュレータを導入するかを決定する。
CIFAR-10, CIFAR-100, ImageNetによる実験により, SBAはニューラルネットワークの一般化を改善し, ネットワークトレーニングの収束を高速化できることが示された。
論文 参考訳(メタデータ) (2020-06-27T04:46:39Z) - An Information Bottleneck Approach for Controlling Conciseness in
Rationale Extraction [84.49035467829819]
我々は,情報ボトルネック(IB)の目的を最適化することで,このトレードオフをよりよく管理できることを示す。
我々の完全教師なしのアプローチは、文上のスパース二項マスクを予測する説明器と、抽出された合理性のみを考慮したエンドタスク予測器を共同で学習する。
論文 参考訳(メタデータ) (2020-05-01T23:26:41Z) - Pre-training Is (Almost) All You Need: An Application to Commonsense
Reasoning [61.32992639292889]
事前学習されたトランスモデルの微調整は、一般的なNLPタスクを解決するための標準的なアプローチとなっている。
そこで本研究では,可視性ランキングタスクをフルテキスト形式でキャストする新たなスコアリング手法を提案する。
提案手法は, ランダム再起動にまたがって, より安定した学習段階を提供することを示す。
論文 参考訳(メタデータ) (2020-04-29T10:54:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。