論文の概要: Metrics and continuity in reinforcement learning
- arxiv url: http://arxiv.org/abs/2102.01514v1
- Date: Tue, 2 Feb 2021 14:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:58:26.170391
- Title: Metrics and continuity in reinforcement learning
- Title(参考訳): 強化学習におけるメトリクスと継続性
- Authors: Charline Le Lan, Marc G. Bellemare, Pablo Samuel Castro
- Abstract要約: メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
- 参考スコア(独自算出の注目度): 34.10996560464196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most practical applications of reinforcement learning, it is untenable to
maintain direct estimates for individual states; in continuous-state systems,
it is impossible. Instead, researchers often leverage state similarity (whether
explicitly or implicitly) to build models that can generalize well from a
limited set of samples. The notion of state similarity used, and the
neighbourhoods and topologies they induce, is thus of crucial importance, as it
will directly affect the performance of the algorithms. Indeed, a number of
recent works introduce algorithms assuming the existence of "well-behaved"
neighbourhoods, but leave the full specification of such topologies for future
work. In this paper we introduce a unified formalism for defining these
topologies through the lens of metrics. We establish a hierarchy amongst these
metrics and demonstrate their theoretical implications on the Markov Decision
Process specifying the reinforcement learning problem. We complement our
theoretical results with empirical evaluations showcasing the differences
between the metrics considered.
- Abstract(参考訳): 強化学習のほとんどの実践的応用では、個々の状態の直接推定を維持することは不可能であり、連続状態システムでは不可能である。
代わりに、研究者はしばしば状態の類似性(明示的にも暗黙的にも)を利用して、限られたサンプルセットからうまく一般化できるモデルを構築します。
使用される状態類似性、およびそれらが誘導する近隣やトポロジの概念は、アルゴリズムのパフォーマンスに直接影響するため、重要な重要性を有する。
実際、最近の多くの研究では「よく行動する」地域の存在を仮定したアルゴリズムが導入されているが、将来の作業のためにそのようなトポロジの完全な仕様を残している。
本稿では,これらのトポロジを定義するための統一的形式主義について,メトリクスのレンズを通じて紹介する。
これらの指標の階層を確立し、強化学習問題を特定するマルコフ決定プロセスに関する理論的意味を実証する。
我々は, 評価指標間の差異を実証的に評価し, 理論結果を補完する。
関連論文リスト
- Bounds on the Generalization Error in Active Learning [0.0]
一般化誤差に上限の族を導出することにより,能動的学習のための経験的リスク原理を確立する。
我々は,多種多様な能動学習シナリオを体系的にリンクし,それらの損失関数と仮説クラスを対応する上界に関連付ける。
この結果から,様々な仮説クラスの複雑性を制約するために用いられる正規化手法は,境界の妥当性を確保するのに十分な条件であることが示唆された。
論文 参考訳(メタデータ) (2024-09-10T08:08:09Z) - Hierarchical Invariance for Robust and Interpretable Vision Tasks at Larger Scales [54.78115855552886]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Bootstrapped Representations in Reinforcement Learning [44.49675960752777]
強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。
時間差分学習により学習した状態表現の理論的特徴について述べる。
政策評価におけるこれらの表現の有効性について述べるとともに,理論解析を用いて新しい補助学習ルールを設計する。
論文 参考訳(メタデータ) (2023-06-16T20:14:07Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Enriching Disentanglement: From Logical Definitions to Quantitative Metrics [59.12308034729482]
複雑なデータにおける説明的要素を遠ざけることは、データ効率の表現学習にとって有望なアプローチである。
論理的定義と量的指標の関連性を確立し, 理論的に根ざした絡み合いの指標を導出する。
本研究では,非交叉表現の異なる側面を分離することにより,提案手法の有効性を実証的に実証する。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - A Comparison of Self-Play Algorithms Under a Generalized Framework [4.339542790745868]
マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
論文 参考訳(メタデータ) (2020-06-08T11:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。