論文の概要: Improving Policy Optimization via $\varepsilon$-Retrain
- arxiv url: http://arxiv.org/abs/2406.08315v1
- Date: Wed, 12 Jun 2024 15:16:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:16:39.877113
- Title: Improving Policy Optimization via $\varepsilon$-Retrain
- Title(参考訳): $\varepsilon$-Retrainによるポリシー最適化の改善
- Authors: Luca Marzari, Changliu Liu, Priya L. Donti, Enrico Marchesini,
- Abstract要約: $varepsilon$-retrainは、モノトニック改善の保証でポリシーを最適化しながら、行動の選好を促進するために設計された探索戦略である。
本手法では, 定型的再起動状態分布と再トレーニング領域を減衰係数$varepsilon$で切り換えることにより, エージェントが優先権に反する状況で再トレーニングを行うことができる。
- 参考スコア(独自算出の注目度): 14.113763056007956
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present $\varepsilon$-retrain, an exploration strategy designed to encourage a behavioral preference while optimizing policies with monotonic improvement guarantees. To this end, we introduce an iterative procedure for collecting retrain areas -- parts of the state space where an agent did not follow the behavioral preference. Our method then switches between the typical uniform restart state distribution and the retrain areas using a decaying factor $\varepsilon$, allowing agents to retrain on situations where they violated the preference. Experiments over hundreds of seeds across locomotion, navigation, and power network tasks show that our method yields agents that exhibit significant performance and sample efficiency improvements. Moreover, we employ formal verification of neural networks to provably quantify the degree to which agents adhere to behavioral preferences.
- Abstract(参考訳): 単調な改善保証でポリシーを最適化しつつ、行動選好を促進するために設計された探索戦略である「\varepsilon$-retrain」を提示する。
この目的のために,エージェントが行動選好に従わなかった状態空間の一部である再訓練領域を反復的に収集する手順を導入する。
提案手法は, 定型的再起動状態分布と再トレーニング領域を減衰係数$\varepsilon$で切り換えることにより, エージェントが優先権に反する状況で再トレーニングを行うことができる。
移動,ナビゲーション,電力ネットワークタスクにまたがって数百種以上の種子を実験したところ,本手法は,性能および試料効率を著しく向上させるエージェントが得られた。
さらに、ニューラルネットワークの形式的検証を用いて、エージェントが行動選好に適合する程度を確実に定量化する。
関連論文リスト
- Optimal Budgeted Rejection Sampling for Generative Models [54.050498411883495]
判別器を用いた生成モデルの性能向上のために, 還元サンプリング法が提案されている。
提案手法は,まず,最適に最適である最適予算削減サンプリング方式を提案する。
第2に,モデル全体の性能を高めるために,サンプリング方式をトレーニング手順に組み込んだエンドツーエンド手法を提案する。
論文 参考訳(メタデータ) (2023-11-01T11:52:41Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Domain Generalization Guided by Gradient Signal to Noise Ratio of
Parameters [69.24377241408851]
ソースドメインへのオーバーフィッティングは、ディープニューラルネットワークの勾配に基づくトレーニングにおいて一般的な問題である。
本稿では,ネットワークパラメータの勾配-信号-雑音比(GSNR)を選択することを提案する。
論文 参考訳(メタデータ) (2023-10-11T10:21:34Z) - Iterative Reweighted Least Squares Networks With Convergence Guarantees
for Solving Inverse Imaging Problems [12.487990897680422]
解析に基づく画像正規化における画像再構成タスクの新しい最適化手法を提案する。
そのような正規化子は $ell_pp$-vector および $mathcalS_pp$ Schatten-matrix 準ノルムの重み付き拡張に対応するポテンシャル関数を用いてパラメータ化する。
提案する最小化戦略の収束保証により,メモリ効率の高い暗黙バックプロパゲーション方式により,そのような最適化を成功させることができることを示す。
論文 参考訳(メタデータ) (2023-08-10T17:59:46Z) - Boosting Adversarial Transferability by Achieving Flat Local Maxima [23.91315978193527]
近年、様々な敵の攻撃が出現し、異なる視点から敵の移動可能性を高めている。
本研究では, 平坦な局所領域における逆例が良好な伝達性を持つ傾向があることを仮定し, 実証的に検証する。
目的関数の勾配更新を簡略化する近似最適化法を提案する。
論文 参考訳(メタデータ) (2023-06-08T14:21:02Z) - Truncating Trajectories in Monte Carlo Reinforcement Learning [48.97155920826079]
強化学習(RL)において、エージェントは未知の環境で動作し、外部報酬信号の期待累積割引和を最大化する。
我々は,異なる長さの軌跡の収集につながるアプリオリ予算配分戦略を提案する。
軌道の適切な切り離しが性能向上に成功することを示す。
論文 参考訳(メタデータ) (2023-05-07T19:41:57Z) - Can Agents Run Relay Race with Strangers? Generalization of RL to
Out-of-Distribution Trajectories [88.08381083207449]
異種エージェントの制御可能な状態に対する一般化失敗の有病率を示す。
本稿では,学習中のQ関数に従って環境をエージェントの旧状態にリセットする,STA(Self-Trajectory Augmentation)という新しい手法を提案する。
論文 参考訳(メタデータ) (2023-04-26T10:12:12Z) - Multi-Agent Reinforcement Learning with Common Policy for Antenna Tilt
Optimization [0.0]
本稿では,セルパラメータの調整による無線ネットワークの最適化手法を提案する。
エージェントは共通の方針を共有し、近隣の細胞からの情報を考慮し、状態と報酬を決定する。
提案手法は,すでに専門家のシステムベースの手法によって提供された性能向上を著しく改善することを示す。
論文 参考訳(メタデータ) (2023-02-24T21:19:26Z) - A State Augmentation based approach to Reinforcement Learning from Human
Preferences [20.13307800821161]
優先に基づく強化学習は、クエリされたトラジェクトリペアのバイナリフィードバックを利用することで、この問題を解決しようとする。
本稿では,エージェントの報酬モデルが堅牢である状態拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-17T07:10:50Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。