論文の概要: Metrics and continuity in reinforcement learning
- arxiv url: http://arxiv.org/abs/2102.01514v1
- Date: Tue, 2 Feb 2021 14:30:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-03 16:58:26.170391
- Title: Metrics and continuity in reinforcement learning
- Title(参考訳): 強化学習におけるメトリクスと継続性
- Authors: Charline Le Lan, Marc G. Bellemare, Pablo Samuel Castro
- Abstract要約: メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
- 参考スコア(独自算出の注目度): 34.10996560464196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In most practical applications of reinforcement learning, it is untenable to
maintain direct estimates for individual states; in continuous-state systems,
it is impossible. Instead, researchers often leverage state similarity (whether
explicitly or implicitly) to build models that can generalize well from a
limited set of samples. The notion of state similarity used, and the
neighbourhoods and topologies they induce, is thus of crucial importance, as it
will directly affect the performance of the algorithms. Indeed, a number of
recent works introduce algorithms assuming the existence of "well-behaved"
neighbourhoods, but leave the full specification of such topologies for future
work. In this paper we introduce a unified formalism for defining these
topologies through the lens of metrics. We establish a hierarchy amongst these
metrics and demonstrate their theoretical implications on the Markov Decision
Process specifying the reinforcement learning problem. We complement our
theoretical results with empirical evaluations showcasing the differences
between the metrics considered.
- Abstract(参考訳): 強化学習のほとんどの実践的応用では、個々の状態の直接推定を維持することは不可能であり、連続状態システムでは不可能である。
代わりに、研究者はしばしば状態の類似性(明示的にも暗黙的にも)を利用して、限られたサンプルセットからうまく一般化できるモデルを構築します。
使用される状態類似性、およびそれらが誘導する近隣やトポロジの概念は、アルゴリズムのパフォーマンスに直接影響するため、重要な重要性を有する。
実際、最近の多くの研究では「よく行動する」地域の存在を仮定したアルゴリズムが導入されているが、将来の作業のためにそのようなトポロジの完全な仕様を残している。
本稿では,これらのトポロジを定義するための統一的形式主義について,メトリクスのレンズを通じて紹介する。
これらの指標の階層を確立し、強化学習問題を特定するマルコフ決定プロセスに関する理論的意味を実証する。
我々は, 評価指標間の差異を実証的に評価し, 理論結果を補完する。
関連論文リスト
- Hierarchical Invariance for Robust and Interpretable Vision Tasks at
Larger Scales [58.046982315688275]
本稿では、畳み込みニューラルネットワーク(CNN)のような階層型アーキテクチャを用いて、オーバーコンプリート不変量を構築する方法を示す。
オーバーコンプリート性により、そのタスクはニューラルアーキテクチャサーチ(NAS)のような方法で適応的に形成される。
大規模で頑健で解釈可能な視覚タスクの場合、階層的不変表現は伝統的なCNNや不変量に対する効果的な代替物とみなすことができる。
論文 参考訳(メタデータ) (2024-02-23T16:50:07Z) - Bootstrapped Representations in Reinforcement Learning [44.49675960752777]
強化学習(RL)では、状態表現は大きな状態空間や連続状態空間を扱うための鍵となる。
時間差分学習により学習した状態表現の理論的特徴について述べる。
政策評価におけるこれらの表現の有効性について述べるとともに,理論解析を用いて新しい補助学習ルールを設計する。
論文 参考訳(メタデータ) (2023-06-16T20:14:07Z) - Advancing Counterfactual Inference through Nonlinear Quantile Regression [77.28323341329461]
ニューラルネットワークで実装された効率的かつ効果的な対実的推論のためのフレームワークを提案する。
提案手法は、推定された反事実結果から見つからないデータまでを一般化する能力を高める。
複数のデータセットで実施した実証実験の結果は、我々の理論的な主張に対する説得力のある支持を提供する。
論文 参考訳(メタデータ) (2023-06-09T08:30:51Z) - Enriching Disentanglement: Definitions to Metrics [97.34033555407403]
分散表現学習は、複雑なデータの変動の複数の要因を分離する難題である。
不整合表現の学習と評価のための様々な指標が提案されているが、これらの指標が真に何を定量化し、どのように比較するかは定かではない。
論文 参考訳(メタデータ) (2023-05-19T08:22:23Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Efficient Dependency Analysis for Rule-Based Ontologies [0.2752817022620644]
既存の規則特性の静的解析のために依存関係が提案されている。
私たちは、ポジティブな依存と抑制という、2種類のルール依存に焦点を当てています。
効率的な計算のために最適化アルゴリズムを実装した。
論文 参考訳(メタデータ) (2022-07-20T05:53:36Z) - Scalable Intervention Target Estimation in Linear Models [52.60799340056917]
因果構造学習への現在のアプローチは、既知の介入目標を扱うか、仮説テストを使用して未知の介入目標を発見する。
本稿では、全ての介入対象を一貫して識別するスケーラブルで効率的なアルゴリズムを提案する。
提案アルゴリズムは、与えられた観測マルコフ同値クラスを介入マルコフ同値クラスに更新することも可能である。
論文 参考訳(メタデータ) (2021-11-15T03:16:56Z) - In Search of Robust Measures of Generalization [79.75709926309703]
我々は、一般化誤差、最適化誤差、過大なリスクのバウンダリを開発する。
経験的に評価すると、これらの境界の大部分は数値的に空白である。
我々は、分散ロバストネスの枠組みの中で、一般化対策を評価するべきであると論じる。
論文 参考訳(メタデータ) (2020-10-22T17:54:25Z) - Jointly-Learned State-Action Embedding for Efficient Reinforcement
Learning [8.342863878589332]
本研究では,モデルフリーとモデルベース強化学習の側面を組み合わせた状態と動作の埋め込み学習手法を提案する。
提案手法は,大きな状態/動作空間を持つ離散/連続領域および連続領域において,最先端モデルよりも顕著に優れていることを示す。
論文 参考訳(メタデータ) (2020-10-09T09:09:31Z) - A Comparison of Self-Play Algorithms Under a Generalized Framework [4.339542790745868]
マルチエージェント強化学習(英語版)でしばしば言及されるセルフプレイの概念は、形式的なモデルでは基礎付けられていない。
我々は,自己表現の意味をカプセル化した,明確に定義された仮定を持つ形式化された枠組みを提案する。
得られた自己再生手法のサブセットが、有名なPPOアルゴリズムと組み合わせることで、この解をいかにうまく近似するかを測定する。
論文 参考訳(メタデータ) (2020-06-08T11:02:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。