論文の概要: Understanding the Evolution of Linear Regions in Deep Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2210.13611v1
- Date: Mon, 24 Oct 2022 21:22:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-26 13:36:25.634891
- Title: Understanding the Evolution of Linear Regions in Deep Reinforcement
Learning
- Title(参考訳): 深層強化学習における線形領域の進化の理解
- Authors: Setareh Cohen, Nam Hee Kim, David Rolnick, Michiel van de Panne
- Abstract要約: 深部強化学習において,観測された地域数とその密度がどのように進化するかを考察した。
最終方針から得られる固定軌跡に沿って測定した結果, 地域密度はトレーニングを通じて中程度に増大することがわかった。
以上の結果から, 深層強化学習政策の複雑さは, この政策の軌道上および前後で観察される関数の複雑さの顕著な増加から生じるものではないことが示唆された。
- 参考スコア(独自算出の注目度): 21.53394095184201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Policies produced by deep reinforcement learning are typically characterised
by their learning curves, but they remain poorly understood in many other
respects. ReLU-based policies result in a partitioning of the input space into
piecewise linear regions. We seek to understand how observed region counts and
their densities evolve during deep reinforcement learning using empirical
results that span a range of continuous control tasks and policy network
dimensions. Intuitively, we may expect that during training, the region density
increases in the areas that are frequently visited by the policy, thereby
affording fine-grained control. We use recent theoretical and empirical results
for the linear regions induced by neural networks in supervised learning
settings for grounding and comparison of our results. Empirically, we find that
the region density increases only moderately throughout training, as measured
along fixed trajectories coming from the final policy. However, the
trajectories themselves also increase in length during training, and thus the
region densities decrease as seen from the perspective of the current
trajectory. Our findings suggest that the complexity of deep reinforcement
learning policies does not principally emerge from a significant growth in the
complexity of functions observed on-and-around trajectories of the policy.
- Abstract(参考訳): 深い強化学習によって生み出される政策は、典型的には学習曲線によって特徴づけられるが、他の多くの点で理解されていない。
ReLUベースのポリシーは、入力空間を断片的に線形領域に分割する。
我々は、連続制御タスクとポリシーネットワークの次元にまたがる経験的結果を用いて、深層強化学習中に観測された領域数とその密度がどのように進化するかを理解しようとする。
直感的には、訓練中、政策が頻繁に訪れる地域において、地域密度が増加し、きめ細かい制御が可能となることを期待する。
近年,ニューラルネットワークによって誘導される線形領域に対して,教師付き学習環境における理論的および経験的結果を用いて,基礎化と比較を行った。
実験により,最終方針から得られる固定軌道に沿って測定すると,地域密度はトレーニングを通じて中程度に増大することがわかった。
しかし、軌跡自体も訓練中に長さが増加するため、現在の軌跡から見て地域密度は減少する。
以上の結果から,深層強化学習方針の複雑さは,政策の軌道上で観察される機能の複雑さが著しく増大することから生じるものではないことが示唆された。
関連論文リスト
- Characterizing stable regions in the residual stream of LLMs [0.0]
モデル出力が小さいアクティベーション変化に敏感なままであるトランスフォーマーの残ストリーム内の安定領域を同定する。
これらの領域はトレーニング中に出現し、トレーニングの進行やモデルサイズの増加に伴ってより定義される。
論文 参考訳(メタデータ) (2024-09-25T17:27:02Z) - Discovering Behavioral Modes in Deep Reinforcement Learning Policies
Using Trajectory Clustering in Latent Space [0.0]
本稿では,DRLポリシーの行動モードを調査するための新しいアプローチを提案する。
具体的には, Pairwise Controlled Manifold Approximation Projection (PaCMAP) を次元減少に用い, TRACLUS を軌道クラスタリングに用いた。
本手法は,多種多様な行動パターンと準最適選択をポリシーによって識別し,目標とする改善を可能にする。
論文 参考訳(メタデータ) (2024-02-20T11:50:50Z) - A Survey Analyzing Generalization in Deep Reinforcement Learning [14.141453107129403]
深層強化学習における一般化の形式化と分析を行う。
より深い強化学習政策が、一般化能力を制限する過度に適合する問題に直面する根本的な理由を説明します。
論文 参考訳(メタデータ) (2024-01-04T16:45:01Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Representation-Driven Reinforcement Learning [57.44609759155611]
強化学習のための表現駆動型フレームワークを提案する。
期待値の見積もりとしてポリシーを表現することにより、我々は、探索と搾取を導くために、文脈的盗賊の手法を活用する。
このフレームワークの有効性を,進化的および政策的勾配に基づくアプローチに適用することによって実証する。
論文 参考訳(メタデータ) (2023-05-31T14:59:12Z) - Adversarial Robust Deep Reinforcement Learning Requires Redefining
Robustness [7.6146285961466]
我々は、高感度方向が深層神経政策の状況においてより豊富であることを示し、ブラックボックス設定でより自然な方法で見つけることができることを示した。
我々は,バニラ訓練技術が,最先端の対人訓練技術を通じて学んだ政策と比較して,より堅牢な政策を学習する結果をもたらすことを示す。
論文 参考訳(メタデータ) (2023-01-17T16:54:33Z) - Representation Learning for Continuous Action Spaces is Beneficial for
Efficient Policy Learning [64.14557731665577]
深部強化学習(DRL)は従来の強化学習(RL)のボトルネックを突破する
本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。
提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。
論文 参考訳(メタデータ) (2022-11-23T19:09:37Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Deep Reinforcement Learning Policies Learn Shared Adversarial Features
Across MDPs [0.0]
本研究では, 意思決定境界と損失景観の類似性について, 州間およびMDP間で検討する枠組みを提案する。
我々はアーケード学習環境から様々なゲームで実験を行い、MDP間で神経政策の高感度方向が相関していることを発見した。
論文 参考訳(メタデータ) (2021-12-16T17:10:41Z) - What training reveals about neural network complexity [80.87515604428346]
この研究は、ディープニューラルネットワーク(NN)が学習している関数の複雑さは、トレーニング中にその重みがどれほど速く変化するかによって推定できるという仮説を探求する。
我々の結果は、優れた訓練行動が良い一般化への有用なバイアスとなるという仮説を支持している。
論文 参考訳(メタデータ) (2021-06-08T08:58:00Z) - Deep Reinforcement Learning with Robust and Smooth Policy [90.78795857181727]
我々は、国家に対して円滑に振る舞う円滑な政策を学ぶことを提案する。
textbfSmooth textbfRegularized textbfReinforcement textbfLearning(textbfSR2textbfL$)という新しいフレームワークを開発し、スムーズな正規化によってポリシーを訓練する。
このような正規化は、探索空間を効果的に制限し、学習ポリシーの滑らかさを強制する。
論文 参考訳(メタデータ) (2020-03-21T00:10:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。