論文の概要: Coarse-Grained Smoothness for RL in Metric Spaces
- arxiv url: http://arxiv.org/abs/2110.12276v1
- Date: Sat, 23 Oct 2021 18:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-31 20:37:41.393325
- Title: Coarse-Grained Smoothness for RL in Metric Spaces
- Title(参考訳): 計量空間におけるRLの粗粒平滑化
- Authors: Omer Gottesman, Kavosh Asadi, Cameron Allen, Sam Lobel, George
Konidaris, Michael Littman
- Abstract要約: 一般的なアプローチは、Q-函数のリプシッツ連続性を仮定することである。
残念なことに、この性質は多くの典型的な領域で保持できない。
リプシッツ連続性の概念を一般化する新しい粗粒度滑らか性定義を提案する。
- 参考スコア(独自算出の注目度): 13.837098609529257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Principled decision-making in continuous state--action spaces is impossible
without some assumptions. A common approach is to assume Lipschitz continuity
of the Q-function. We show that, unfortunately, this property fails to hold in
many typical domains. We propose a new coarse-grained smoothness definition
that generalizes the notion of Lipschitz continuity, is more widely applicable,
and allows us to compute significantly tighter bounds on Q-functions, leading
to improved learning. We provide a theoretical analysis of our new smoothness
definition, and discuss its implications and impact on control and exploration
in continuous domains.
- Abstract(参考訳): 連続状態-作用空間における原則的意思決定はいくつかの仮定なしでは不可能である。
一般的なアプローチは、Q-函数のリプシッツ連続性を仮定することである。
残念なことに、このプロパティは多くの典型的なドメインで保持できません。
我々は,リプシッツ連続性の概念を一般化し,より広く適用でき,Q-函数のより厳密な境界を計算し,学習の改善につながるような,より粗い滑らかさの定義を提案する。
我々は,新しい滑らか性定義の理論的解析を行い,連続領域における制御と探索に与える影響と影響について論じる。
関連論文リスト
- Achieving Domain-Independent Certified Robustness via Knowledge Continuity [21.993471256103085]
我々は、リプシッツ連続性に触発された新しい定義である知識連続性を示す。
提案した定義は、ニューラルネットワークの損失関数と中間学習距離空間にのみ依存することを保証する。
ニューラルネットワークの脆弱なコンポーネントのローカライズには,知識の連続性が有効であることを示す。
論文 参考訳(メタデータ) (2024-11-03T17:37:59Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Wasserstein Actor-Critic: Directed Exploration via Optimism for
Continuous-Actions Control [41.7453231409493]
Wasserstein Actor-Critic (WAC) は、Wasserstein Q-Learning (WQL) citepwqlにインスパイアされたアクター批判アーキテクチャである。
WACは、Q値の推定値の上限を最適化してポリシー学習プロセスを導くことによって、原則的な方法で探索を実施する。
論文 参考訳(メタデータ) (2023-03-04T10:52:20Z) - Learning to Optimize with Stochastic Dominance Constraints [103.26714928625582]
本稿では,不確実量を比較する問題に対して,単純かつ効率的なアプローチを開発する。
我々はラグランジアンの内部最適化をサロゲート近似の学習問題として再考した。
提案したライト-SDは、ファイナンスからサプライチェーン管理に至るまで、いくつかの代表的な問題において優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-14T21:54:31Z) - Instance-Dependent Generalization Bounds via Optimal Transport [51.71650746285469]
既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要因を説明することができない。
データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出する。
ニューラルネットワークに対する一般化境界を実験的に解析し、有界値が有意義であることを示し、トレーニング中の一般的な正規化方法の効果を捉える。
論文 参考訳(メタデータ) (2022-11-02T16:39:42Z) - Lipschitz Continuity Retained Binary Neural Network [52.17734681659175]
我々は,BNNのモデルロバスト性を定義するための厳密な基準として,リプシッツ連続性を導入する。
次に、モデルロバスト性を改善するための正規化項としてリプシッツ連続性を維持することを提案する。
実験により,我々のBNN固有の正規化手法は,BNNの堅牢性を効果的に強化できることが証明された。
論文 参考訳(メタデータ) (2022-07-13T22:55:04Z) - Functional Generalized Empirical Likelihood Estimation for Conditional
Moment Restrictions [19.39005034948997]
一般化経験的可能性(GEL)に基づく新しい推定法を提案する。
GELはより一般的なフレームワークを提供しており、GMMベースの推定器と比較して、より好ましい小さなサンプル特性を享受していることが示されている。
本研究では,2つの条件付きモーメント制約問題に対して,最先端の実証性能を実現するための,カーネルとニューラルネットワークによる推定器の実装を提案する。
論文 参考訳(メタデータ) (2022-07-11T11:02:52Z) - Beyond the Edge of Stability via Two-step Gradient Updates [49.03389279816152]
Gradient Descent(GD)は、現代の機械学習の強力な仕事場である。
GDが局所最小値を見つける能力は、リプシッツ勾配の損失に対してのみ保証される。
この研究は、2段階の勾配更新の分析を通じて、単純だが代表的でありながら、学習上の問題に焦点をあてる。
論文 参考訳(メタデータ) (2022-06-08T21:32:50Z) - Sparsest Univariate Learning Models Under Lipschitz Constraint [31.28451181040038]
一次元回帰問題に対する連続領域定式化を提案する。
リプシッツ定数をユーザ定義上界を用いて明示的に制御する。
いずれの問題も、連続的かつ断片的線形なグローバル最小化を許容していることが示される。
論文 参考訳(メタデータ) (2021-12-27T07:03:43Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z) - Exactly Computing the Local Lipschitz Constant of ReLU Networks [98.43114280459271]
ニューラルネットワークの局所リプシッツ定数は、堅牢性、一般化、公正性評価に有用な指標である。
ReLUネットワークのリプシッツ定数を推定するために, 強い不適合性を示す。
このアルゴリズムを用いて、競合するリプシッツ推定器の密度と正規化トレーニングがリプシッツ定数に与える影響を評価する。
論文 参考訳(メタデータ) (2020-03-02T22:15:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。