論文の概要: Dynamic Reinforcement Learning for Actors
- arxiv url: http://arxiv.org/abs/2502.10200v1
- Date: Fri, 14 Feb 2025 14:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-17 14:48:50.496486
- Title: Dynamic Reinforcement Learning for Actors
- Title(参考訳): アクターの動的強化学習
- Authors: Katsunari Shibata,
- Abstract要約: 動的強化学習(Dynamic RL)は、アクター(アクション生成ニューラルネットワーク)出力の代わりに、システムダイナミクスを直接制御する。
Actorは当初、その環境とループを通してカオス力学を生成するように設計されている。
動的RLは「感度」と呼ばれる局所指数を用いてグローバルシステムダイナミクスを制御する
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Dynamic Reinforcement Learning (Dynamic RL), proposed in this paper, directly controls system dynamics, instead of the actor (action-generating neural network) outputs at each moment, bringing about a major qualitative shift in reinforcement learning (RL) from static to dynamic. The actor is initially designed to generate chaotic dynamics through the loop with its environment, enabling the agent to perform flexible and deterministic exploration. Dynamic RL controls global system dynamics using a local index called "sensitivity," which indicates how much the input neighborhood contracts or expands into the corresponding output neighborhood through each neuron's processing. While sensitivity adjustment learning (SAL) prevents excessive convergence of the dynamics, sensitivity-controlled reinforcement learning (SRL) adjusts them -- to converge more to improve reproducibility around better state transitions with positive TD error and to diverge more to enhance exploration around worse transitions with negative TD error. Dynamic RL was applied only to the actor in an Actor-Critic RL architecture while applying it to the critic remains a challenge. It was tested on two dynamic tasks and functioned effectively without external exploration noise or backward computation through time. Moreover, it exhibited excellent adaptability to new environments, although some problems remain. Drawing parallels between 'exploration' and 'thinking,' the author hypothesizes that "exploration grows into thinking through learning" and believes this RL could be a key technique for the emergence of thinking, including inspiration that cannot be reconstructed from massive existing text data. Finally, despite being presumptuous, the author presents the argument that this research should not proceed due to its potentially fatal risks, aiming to encourage discussion.
- Abstract(参考訳): 本稿では,動的強化学習(Dynamic Reinforcement Learning, Dynamic RL)を提案し,アクタ(動作生成ニューラルネットワーク)出力の代わりにシステムダイナミクスを直接制御し,静的から動的への強化学習(Regress Learning, RL)の質的変化をもたらす。
アクターは最初、その環境とループを通してカオス力学を生成するように設計されており、エージェントは柔軟で決定論的探索を行うことができる。
動的RLは「感度」と呼ばれる局所指数を用いてグローバルシステムダイナミクスを制御する。
感度調整学習(SAL)は力学の過度な収束を防ぐが、感度制御強化学習(SRL)はそれらを調整する -- より収束し、より良い状態遷移の再現性を改善するために正のTD誤差で、さらに分散し、負のTD誤差で悪化遷移の探索を強化する。
動的RLはアクター・クライブ・RLアーキテクチャのアクターにのみ適用されたが、批評家には依然として課題である。
2つの動的タスクでテストされ、外部探索ノイズや時間経過による後方計算を使わずに効果的に機能した。
さらに、いくつかの問題は残るものの、新しい環境への優れた適応性を示した。
著者は「探索」と「思考」の類似性を引き合いに出し、「探索は学習を通して思考へと成長する」と仮定し、このRLは膨大な既存のテキストデータから再構成できないインスピレーションを含む思考の出現の鍵となる技術であると信じている。
最後に、この研究は先入観的ではあるが、潜在的に致命的なリスクのために続行すべきではなく、議論を促進することを目的としている。
関連論文リスト
- Localized Observation Abstraction Using Piecewise Linear Spatial Decay for Reinforcement Learning in Combat Simulations [0.0]
本稿では,一方向線形空間減衰を用いた局所的な観測抽象化手法を提案する。
この技術は状態空間を単純化し、重要な情報を保持しながら計算要求を減らす。
分析の結果,この局所的な観測アプローチは,シナリオの複雑さが増大する中で,従来型のグローバルな観測手法よりも一貫して優れていたことが判明した。
論文 参考訳(メタデータ) (2024-08-23T18:26:10Z) - Learn to Memorize and to Forget: A Continual Learning Perspective of Dynamic SLAM [17.661231232206028]
暗黙的な神経表現を伴う同時局所化とマッピング(SLAM)が注目されている。
動的環境のための新しいSLAMフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-18T09:35:48Z) - Variable-Agnostic Causal Exploration for Reinforcement Learning [56.52768265734155]
強化学習のための新しいフレームワークVACERL(Variable-Agnostic Causal Exploration for Reinforcement Learning)を導入する。
本手法は,注目機構を用いて,重要変数に関連する重要な観測行動ステップを自動的に同定する。
これらのステップを接続する因果グラフを構築し、エージェントをタスク完了に対する因果的影響の大きい観察-作用ペアへと導く。
論文 参考訳(メタデータ) (2024-07-17T09:45:27Z) - SINDy-RL: Interpretable and Efficient Model-Based Reinforcement Learning [5.59265003686955]
SINDy-RLは,SINDyと深層強化学習を組み合わせたフレームワークである。
SINDy-RLは最先端のDRLアルゴリズムに匹敵する性能を達成する。
我々は,ベンチマーク制御環境と流体問題に対するアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2024-03-14T05:17:39Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Emergent behavior and neural dynamics in artificial agents tracking
turbulent plumes [1.8065361710947974]
我々は、深層強化学習を用いて、リカレントニューラルネットワーク(RNN)エージェントを訓練し、シミュレートされた乱流プラムの源を見つける。
風向の変化を観測する実験的な仮説が提案されている。
論文 参考訳(メタデータ) (2021-09-25T20:57:02Z) - Neural Dynamic Policies for End-to-End Sensorimotor Learning [51.24542903398335]
感覚運動制御における現在の主流パラダイムは、模倣であれ強化学習であれ、生の行動空間で政策を直接訓練することである。
軌道分布空間の予測を行うニューラル・ダイナミック・ポリシー(NDP)を提案する。
NDPは、いくつかのロボット制御タスクにおいて、効率と性能の両面で、これまでの最先端よりも優れている。
論文 参考訳(メタデータ) (2020-12-04T18:59:32Z) - Learn2Perturb: an End-to-end Feature Perturbation Learning to Improve
Adversarial Robustness [79.47619798416194]
Learn2Perturbは、ディープニューラルネットワークの対角的堅牢性を改善するために、エンドツーエンドの機能摂動学習アプローチである。
予測最大化にインスパイアされ、ネットワークと雑音パラメータを連続的にトレーニングするために、交互にバックプロパゲーショントレーニングアルゴリズムが導入された。
論文 参考訳(メタデータ) (2020-03-02T18:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。