論文の概要: Hardness in Markov Decision Processes: Theory and Practice
- arxiv url: http://arxiv.org/abs/2210.13075v1
- Date: Mon, 24 Oct 2022 09:51:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-25 18:32:41.807116
- Title: Hardness in Markov Decision Processes: Theory and Practice
- Title(参考訳): マルコフ決定過程における硬さ:理論と実践
- Authors: Michelangelo Conserva, Paulo Rauber
- Abstract要約: 本稿では,有望な研究方向性を識別する硬さ理論の体系的な調査を行う。
第2に,経験的硬さ解析を可能にする先駆的パッケージであるColosseumを紹介する。
第3に、計算可能な測度に関する新たな洞察を提供する経験的分析を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Meticulously analysing the empirical strengths and weaknesses of
reinforcement learning methods in hard (challenging) environments is essential
to inspire innovations and assess progress in the field. In tabular
reinforcement learning, there is no well-established standard selection of
environments to conduct such analysis, which is partially due to the lack of a
widespread understanding of the rich theory of hardness of environments. The
goal of this paper is to unlock the practical usefulness of this theory through
four main contributions. First, we present a systematic survey of the theory of
hardness, which also identifies promising research directions. Second, we
introduce Colosseum, a pioneering package that enables empirical hardness
analysis and implements a principled benchmark composed of environments that
are diverse with respect to different measures of hardness. Third, we present
an empirical analysis that provides new insights into computable measures.
Finally, we benchmark five tabular agents in our newly proposed benchmark.
While advancing the theoretical understanding of hardness in non-tabular
reinforcement learning remains essential, our contributions in the tabular
setting are intended as solid steps towards a principled non-tabular benchmark.
Accordingly, we benchmark four agents in non-tabular versions of Colosseum
environments, obtaining results that demonstrate the generality of tabular
hardness measures.
- Abstract(参考訳): ハード環境における強化学習法の実証的強みと弱みを慎重に分析することは、イノベーションを刺激し、この分野の進歩を評価するために不可欠である。
表型強化学習では、そのような分析を行うための環境の標準的選択は確立されていないが、これは部分的には環境の硬さに関する豊富な理論が広く理解されていないためである。
本論の目的は,4つの主要な貢献を通じて,この理論の実用的有用性を解き明かすことである。
まず,有望な研究方向性を示す硬度理論の体系的な調査について述べる。
第2に,経験的ハードネス分析を可能にする先駆的パッケージであるcolosseumを紹介し,異なるハードネス尺度に関して多様な環境からなる原則ベンチマークを実装した。
第3に,計算可能な尺度に対する新たな洞察を提供する経験的分析を提案する。
最後に,新たに提案するベンチマークにおいて,5つの表型エージェントをベンチマークする。
非タブラキ強化学習における難易度の理論的理解を推し進めていくことは依然として不可欠であるが、表面設定における我々の貢献は、原則化された非タブラキベンチマークに向けた確かなステップである。
そこで我々は,コロッセウム環境の非タブラルバージョンの4つのエージェントをベンチマークし,表層硬度測定の一般性を示す結果を得た。
関連論文リスト
- Understanding What Affects the Generalization Gap in Visual Reinforcement Learning: Theory and Empirical Evidence [53.51724434972605]
本稿では,テスト環境に障害がある場合の一般化ギャップに寄与する要因について理論的に考察する。
我々の理論は、人間の直観に沿う訓練環境とテスト環境の表現距離を最小化することが、一般化のギャップを減らすことの利点として最も重要であることを示唆している。
論文 参考訳(メタデータ) (2024-02-05T03:27:52Z) - Goodhart's Law Applies to NLP's Explanation Benchmarks [57.26445915212884]
ERASER(Comprehensiveness and sufficiency)メトリクスとEVAL-X(EVAL-X)メトリクスの2つのセットを批判的に検討する。
実験結果の予測や説明を変えることなく,モデル全体の包括性と充足率を劇的に向上させることができることを示す。
我々の結果は、現在のメトリクスが説明可能性の研究をガイドする能力に疑問を呈し、これらのメトリクスが正確に捉えるものを再評価する必要性を強調します。
論文 参考訳(メタデータ) (2023-08-28T03:03:03Z) - Theoretical Foundations of Adversarially Robust Learning [7.589246500826111]
現在の機械学習システムは、敵の例に対して脆弱であることが示されている。
この論文では、敵の例に対して、ロバストネス特性がどのような保証を期待できるかを論じる。
論文 参考訳(メタデータ) (2023-06-13T12:20:55Z) - Learning World Models with Identifiable Factorization [39.767120163665574]
我々は、遅延状態変数の4つの異なるカテゴリをモデル化するために、IFactorを提案する。
我々の分析は、これらの潜伏変数のブロックワイド識別性を確立する。
本稿では,ブロックを識別して世界モデルを学習するための実践的アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-11T02:25:15Z) - On the Importance of Exploration for Generalization in Reinforcement
Learning [89.63074327328765]
本研究では,不確実性の高い状態の探索を支援する方法であるEDE: Exploration via Distributional Ensembleを提案する。
当社のアルゴリズムは,ProcgenとCrafterの両面で最先端を実現するための,最初のバリューベースアプローチである。
論文 参考訳(メタデータ) (2023-06-08T18:07:02Z) - Synergies between Disentanglement and Sparsity: Generalization and
Identifiability in Multi-Task Learning [79.83792914684985]
我々は,最大スパース基底予測器が不整合表現をもたらす条件を提供する新しい識別可能性の結果を証明した。
この理論的な結果から,両レベル最適化問題に基づくアンタングル表現学習の実践的アプローチを提案する。
論文 参考訳(メタデータ) (2022-11-26T21:02:09Z) - Exploring the Learning Difficulty of Data Theory and Measure [2.668651175000491]
本研究は,サンプルの学習難易度に関するパイロット理論的研究を試みている。
一般化誤差に関するバイアス分散トレードオフ理論に基づいて,学習難易度の理論的定義を提案する。
機械学習における古典的な重み付け法は、探索された性質からよく説明できる。
論文 参考訳(メタデータ) (2022-05-16T02:28:12Z) - The Eigenlearning Framework: A Conservation Law Perspective on Kernel
Regression and Wide Neural Networks [1.6519302768772166]
テストリスクとカーネルリッジ回帰の他の一般化指標について、簡単なクローズドフォーム推定を導出する。
関数の正規直交基底を学習するKRRの能力を制限するシャープな保存法則を同定する。
論文 参考訳(メタデータ) (2021-10-08T06:32:07Z) - Metrics and continuity in reinforcement learning [34.10996560464196]
メトリクスのレンズを通してトポロジを定義するために統一的な定式化を導入する。
我々はこれらの指標の階層を確立し、マルコフ決定過程にその理論的意味を実証する。
考察した指標間の差異を示す実証的な評価で理論結果を補完する。
論文 参考訳(メタデータ) (2021-02-02T14:30:41Z) - Importance Weighted Policy Learning and Adaptation [89.46467771037054]
政治外学習の最近の進歩の上に構築された,概念的にシンプルで,汎用的で,モジュール的な補完的アプローチについて検討する。
このフレームワークは確率論的推論文学のアイデアにインスパイアされ、堅牢な非政治学習と事前の行動を組み合わせる。
提案手法は,メタ強化学習ベースラインと比較して,ホールドアウトタスクにおける競合適応性能を実現し,複雑なスパース・リワードシナリオにスケールすることができる。
論文 参考訳(メタデータ) (2020-09-10T14:16:58Z) - Learning explanations that are hard to vary [75.30552491694066]
例を越えた平均化は、異なる戦略を縫合する記憶とパッチワークのソリューションに有利であることを示す。
そこで我々は論理ANDに基づく単純な代替アルゴリズムを提案し,実験的に検証する。
論文 参考訳(メタデータ) (2020-09-01T10:17:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。