論文の概要: Evidence on the Regularisation Properties of Maximum-Entropy Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2501.17115v1
- Date: Tue, 28 Jan 2025 18:04:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-29 16:40:53.868479
- Title: Evidence on the Regularisation Properties of Maximum-Entropy Reinforcement Learning
- Title(参考訳): 最大エントロピー強化学習の正規化特性に関する証拠
- Authors: Rémy Hosseinkhan Boucher, Onofrio Semeraro, Lionel Mathelin,
- Abstract要約: 最大エントロピー強化学習を通じて学習した政策の一般化と堅牢性について検討した。
その結果,エントロピー規則化政策最適化と雑音に対する頑健性の関係が示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: The generalisation and robustness properties of policies learnt through Maximum-Entropy Reinforcement Learning are investigated on chaotic dynamical systems with Gaussian noise on the observable. First, the robustness under noise contamination of the agent's observation of entropy regularised policies is observed. Second, notions of statistical learning theory, such as complexity measures on the learnt model, are borrowed to explain and predict the phenomenon. Results show the existence of a relationship between entropy-regularised policy optimisation and robustness to noise, which can be described by the chosen complexity measures.
- Abstract(参考訳): 最大エントロピー強化学習を通じて学習した政策の一般化とロバスト性について,観測可能なガウス雑音をもつカオス力学系について検討した。
まず, エージェントのエントロピー規則化ポリシ観測における騒音汚染下でのロバスト性について検討した。
第二に、学習モデル上の複雑性尺度のような統計学習理論の概念は、現象の説明と予測のために借用される。
その結果、エントロピー規則化された政策最適化と雑音に対する堅牢性の関係が示され、これは選択された複雑性尺度によって説明できる。
関連論文リスト
- Imitation Learning from Observations: An Autoregressive Mixture of Experts Approach [2.4427666827706074]
本稿では,観察から得られた模倣学習の新たなアプローチとして,専門家モデルの自己回帰混合を,その基礎となる方針に適合させる手法を提案する。
提案手法の有効性を,人間の実演から収集した2つの自律走行データセットを用いて検証した。
論文 参考訳(メタデータ) (2024-11-12T22:56:28Z) - Unified Causality Analysis Based on the Degrees of Freedom [1.2289361708127877]
本稿では,システム間の因果関係を同定する統一手法を提案する。
システムの自由度を分析することで、私たちのアプローチは因果的影響と隠れた共同設立者の両方についてより包括的な理解を提供する。
この統合されたフレームワークは、理論モデルとシミュレーションを通じて検証され、その堅牢性とより広範な応用の可能性を示す。
論文 参考訳(メタデータ) (2024-10-25T10:57:35Z) - Reinforcement Learning under Latent Dynamics: Toward Statistical and Algorithmic Modularity [51.40558987254471]
強化学習の現実的な応用は、エージェントが複雑な高次元の観察を行う環境を含むことが多い。
本稿では,統計的・アルゴリズム的な観点から,textit General$ latent dynamicsの下での強化学習の課題に対処する。
論文 参考訳(メタデータ) (2024-10-23T14:22:49Z) - Stochastic action for the entanglement of a noisy monitored two-qubit
system [55.2480439325792]
局所的な一意雑音が局所的なモニタリングおよび量子間カップリングを受ける2ビット系の絡み合い進化に及ぼす影響について検討した。
チャンタスリ・ドルッセル・ヨルダン経路積分に雑音を組み込んでハミルトニアンを構築し、それを最適絡み合い力学の同定に利用する。
長時間定常エンタングルメントの数値解析により,コンカレンスと雑音強度の非単調な関係が明らかとなった。
論文 参考訳(メタデータ) (2024-03-13T11:14:10Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - IRL with Partial Observations using the Principle of Uncertain Maximum
Entropy [8.296684637620553]
我々は、不確実な最大エントロピーの原理を導入し、期待最大化に基づく解を示す。
我々は,最大因果エントロピー逆強化学習領域において,ノイズデータに対する頑健性の改善を実験的に実証した。
論文 参考訳(メタデータ) (2022-08-15T03:22:46Z) - Towards Robust Bisimulation Metric Learning [3.42658286826597]
ビシミュレーションメトリクスは、表現学習問題に対する一つの解決策を提供する。
非最適ポリシーへのオン・ポリティクス・バイシミュレーション・メトリクスの値関数近似境界を一般化する。
これらの問題は、制約の少ない力学モデルと、報酬信号への埋め込みノルムの不安定な依存に起因する。
論文 参考訳(メタデータ) (2021-10-27T00:32:07Z) - Counterfactual Maximum Likelihood Estimation for Training Deep Networks [83.44219640437657]
深層学習モデルは、予測的手がかりとして学習すべきでない急激な相関を学習する傾向がある。
本研究では,観測可能な共同設立者による相関関係の緩和を目的とした因果関係に基づくトレーニングフレームワークを提案する。
自然言語推論(NLI)と画像キャプションという2つの実世界の課題について実験を行った。
論文 参考訳(メタデータ) (2021-06-07T17:47:16Z) - Weighted Entropy Modification for Soft Actor-Critic [95.37322316673617]
我々は,強化学習における最大シャノンエントロピーの原理を,定性的重みを持つ状態-作用対を特徴付けることにより,重み付きエントロピーに一般化する。
本稿では,導入した重み関数による自己バランス探索を動機とするアルゴリズムを提案し,実装の単純さに拘わらず,Mujocoタスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-18T04:36:03Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。