論文の概要: Leveraging weights signals - Predicting and improving generalizability in reinforcement learning
- arxiv url: http://arxiv.org/abs/2511.20234v1
- Date: Tue, 25 Nov 2025 12:07:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.442382
- Title: Leveraging weights signals - Predicting and improving generalizability in reinforcement learning
- Title(参考訳): ウェイト信号の活用 -強化学習における一般化の予測と改善-
- Authors: Olivier Moulin, Vincent Francois-lavet, Paul Elbers, Mark Hoogendoorn,
- Abstract要約: 強化学習(RL)エージェントの一般化可能性(訓練されたエージェントとは異なる環境で実行可能であること)は重要な問題である。
本稿では、エージェントのニューラルネットワークの内部重みに基づいて、RLエージェントの一般化可能性スコアを予測する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 3.284045052514266
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalizability of Reinforcement Learning (RL) agents (ability to perform on environments different from the ones they have been trained on) is a key problem as agents have the tendency to overfit to their training environments. In order to address this problem and offer a solution to increase the generalizability of RL agents, we introduce a new methodology to predict the generalizability score of RL agents based on the internal weights of the agent's neural networks. Using this prediction capability, we propose some changes in the Proximal Policy Optimization (PPO) loss function to boost the generalization score of the agents trained with this upgraded version. Experimental results demonstrate that our improved PPO algorithm yields agents with stronger generalizability compared to the original version.
- Abstract(参考訳): 強化学習(RL)エージェントの一般化可能性(訓練されたエージェントとは異なる環境で実行可能であること)は、エージェントがトレーニング環境に過度に適合する傾向にあるため、重要な問題である。
この問題に対処し、RLエージェントの一般化可能性を高めるためのソリューションを提供するために、エージェントの内部重みに基づくRLエージェントの一般化可能性スコアを予測する新しい手法を提案する。
この予測機能を用いて,この改良版で訓練したエージェントの一般化スコアを高めるために,PPO損失関数のいくつかの変更を提案する。
実験の結果,改良されたPPOアルゴリズムは,原版に比べてより高い一般化性を有するエージェントが得られることがわかった。
関連論文リスト
- A Dual-Agent Adversarial Framework for Robust Generalization in Deep Reinforcement Learning [4.893032779769629]
両エージェント対応型政策学習フレームワークを提案する。
このフレームワークは、エージェントが人間の事前知識を導入することなく、基礎となるセマンティクスを自発的に学習することを可能にする。
実験により, 両エージェントの一般化性能が著しく向上することが確認された。
論文 参考訳(メタデータ) (2025-01-29T02:36:47Z) - From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Adversarial Style Transfer for Robust Policy Optimization in Deep
Reinforcement Learning [13.652106087606471]
本稿では,特徴量に対する過度な適合を取り除き,強化学習エージェントの一般化をめざすアルゴリズムを提案する。
政策ネットワークは、そのパラメータを更新し、そのような摂動の影響を最小限に抑え、将来期待される報酬を最大化しながら頑健に維持する。
一般化とサンプル効率向上のためのProcgen and Distracting Control Suiteに対するアプローチを評価した。
論文 参考訳(メタデータ) (2023-08-29T18:17:35Z) - Learning Dynamics and Generalization in Reinforcement Learning [59.530058000689884]
時間差学習は, エージェントが訓練の初期段階において, 値関数の非平滑成分を適合させるのに役立つことを理論的に示す。
本研究では,高密度報酬タスクの時間差アルゴリズムを用いて学習したニューラルネットワークが,ランダムなネットワークや政策手法で学習した勾配ネットワークよりも,状態間の一般化が弱いことを示す。
論文 参考訳(メタデータ) (2022-06-05T08:49:16Z) - What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。
部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文 参考訳(メタデータ) (2021-04-29T20:34:39Z) - Dynamics Generalization via Information Bottleneck in Deep Reinforcement
Learning [90.93035276307239]
本稿では,RLエージェントのより優れた一般化を実現するために,情報理論正則化目標とアニーリングに基づく最適化手法を提案する。
迷路ナビゲーションからロボットタスクまで、さまざまな領域において、我々のアプローチの極端な一般化の利点を実証する。
この研究は、タスク解決のために冗長な情報を徐々に取り除き、RLの一般化を改善するための原則化された方法を提供する。
論文 参考訳(メタデータ) (2020-08-03T02:24:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。