論文の概要: Criticality-Based Varying Step-Number Algorithm for Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2201.05034v1
- Date: Thu, 13 Jan 2022 15:46:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-14 19:41:47.960386
- Title: Criticality-Based Varying Step-Number Algorithm for Reinforcement
Learning
- Title(参考訳): 強化学習のための臨界に基づく可変ステップヌーバーアルゴリズム
- Authors: Yitzhak Spielberg, Amos Azaria
- Abstract要約: 我々は,ある状態の臨界性の概念を導入し,その状態における行動選択が期待されるリターンにどの程度影響するかを示す。
臨界に基づく可変ステップ数アルゴリズム(CVS)を定式化する。
我々は、CVSがDeep Q-LearningやMonte Carloといった一般的な学習アルゴリズムより優れていることを実証した。
- 参考スコア(独自算出の注目度): 8.442084903594528
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of reinforcement learning we introduce the concept of
criticality of a state, which indicates the extent to which the choice of
action in that particular state influences the expected return. That is, a
state in which the choice of action is more likely to influence the final
outcome is considered as more critical than a state in which it is less likely
to influence the final outcome.
We formulate a criticality-based varying step number algorithm (CVS) - a
flexible step number algorithm that utilizes the criticality function provided
by a human, or learned directly from the environment. We test it in three
different domains including the Atari Pong environment, Road-Tree environment,
and Shooter environment. We demonstrate that CVS is able to outperform popular
learning algorithms such as Deep Q-Learning and Monte Carlo.
- Abstract(参考訳): 強化学習の文脈では、ある状態の臨界性の概念を導入し、その状態における行動の選択が期待されるリターンにどの程度影響するかを示す。
すなわち、行動の選択が最終結果に影響を及ぼす可能性が高い状態は、最終結果に影響を及ぼす可能性が低い状態よりも重要であるとみなされる。
我々は、人間が提供する臨界関数を利用するフレキシブルなステップ数アルゴリズムである臨界に基づく可変ステップ数アルゴリズム(CVS)を定式化し、環境から直接学習する。
Atari Pong環境、Road-Tree環境、Shooter環境の3つの異なる領域でテストする。
我々は、CVSがDeep Q-LearningやMonte Carloといった一般的な学習アルゴリズムより優れていることを示した。
関連論文リスト
- The Role of Learning Algorithms in Collective Action [8.955918346078935]
本研究では,学習アルゴリズムの特性に大きく依存していることを示す。
このことは、機械学習における集団行動の影響を研究する際に、学習アルゴリズムを考慮に入れる必要性を強調している。
論文 参考訳(メタデータ) (2024-05-10T16:36:59Z) - Value-Distributional Model-Based Reinforcement Learning [59.758009422067]
政策の長期的業績に関する不確実性の定量化は、シーケンシャルな意思決定タスクを解決するために重要である。
モデルに基づくベイズ強化学習の観点から問題を考察する。
本稿では,値分布関数を学習するモデルに基づくアルゴリズムであるEpicemic Quantile-Regression(EQR)を提案する。
論文 参考訳(メタデータ) (2023-08-12T14:59:19Z) - Risk-Aware Distributed Multi-Agent Reinforcement Learning [8.287693091673658]
我々は,リスク認識行動の学習により,未知環境における意思決定問題を解決するために,分散MARLアプローチを開発した。
次に,CVaR QD-Learningアルゴリズムと呼ばれる分散MARLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-04T17:56:44Z) - Addressing the issue of stochastic environments and local
decision-making in multi-objective reinforcement learning [0.0]
多目的強化学習(MORL)は、従来の強化学習(RL)に基づく比較的新しい分野である。
この論文は、価値に基づくMORL Q-learningアルゴリズムが環境の最適ポリシーを学習する頻度に影響を与える要因に焦点を当てている。
論文 参考訳(メタデータ) (2022-11-16T04:56:42Z) - A Bayesian Approach to Learning Bandit Structure in Markov Decision
Processes [33.82909347826552]
本研究では,ベイズ仮説テスト手法を用いて環境特性を学習するオンラインアルゴリズムを開発した。
CB設定では、我々のアルゴリズムはMDPベースのアルゴリズムよりも後悔の少ないが、非帯域のMDP設定では最適なポリシーを学習できることを示した。
論文 参考訳(メタデータ) (2022-07-30T15:18:11Z) - Offline Policy Optimization with Eligible Actions [34.4530766779594]
オフラインポリシーの最適化は多くの現実世界の意思決定問題に大きな影響を与える可能性がある。
重要度サンプリングとその変種は、オフラインポリシー評価において一般的に使用されるタイプの推定器である。
そこで本稿では, 州ごとの正規化制約によって過度に適合することを避けるアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-07-01T19:18:15Z) - Towards Diverse Evaluation of Class Incremental Learning: A Representation Learning Perspective [67.45111837188685]
クラスインクリメンタル学習(CIL)アルゴリズムは、インクリメンタルに到着したデータから新しいオブジェクトクラスを継続的に学習することを目的としている。
表現学習における様々な評価プロトコルを用いて,CILアルゴリズムによって訓練されたニューラルネットワークモデルを実験的に解析する。
論文 参考訳(メタデータ) (2022-06-16T11:44:11Z) - Meta-Gradient Reinforcement Learning with an Objective Discovered Online [54.15180335046361]
本稿では,深層ニューラルネットワークによって柔軟にパラメータ化される,自己目的のメタ段階的降下に基づくアルゴリズムを提案する。
目的はオンラインで発見されるため、時間とともに変化に適応することができる。
Atari Learning Environmentでは、メタグラディエントアルゴリズムが時間とともに適応して、より効率よく学習する。
論文 参考訳(メタデータ) (2020-07-16T16:17:09Z) - Deep Reinforcement Learning amidst Lifelong Non-Stationarity [67.24635298387624]
政治以外のRLアルゴリズムは、寿命の長い非定常性に対処できることを示す。
提案手法は潜在変数モデルを用いて,現在および過去の経験から環境表現を学習する。
また, 生涯の非定常性を示すシミュレーション環境もいくつか導入し, 環境変化を考慮しないアプローチを著しく上回っていることを実証的に確認した。
論文 参考訳(メタデータ) (2020-06-18T17:34:50Z) - Zeroth-Order Supervised Policy Improvement [94.0748002906652]
政策勾配(PG)アルゴリズムは強化学習(RL)に広く用いられている。
ゼロ次監視政策改善(ZOSPI)を提案する。
ZOSPIは、PGメソッドの局所的な利用を保ちながら、推定値関数を全世界で$Q$で活用する。
論文 参考訳(メタデータ) (2020-06-11T16:49:23Z) - Reinforcement Learning with Feedback Graphs [69.1524391595912]
エージェントがステップ毎に追加のフィードバックを受けた場合,決定過程におけるエピソード強化学習について検討する。
状態-作用対上のフィードバックグラフを用いてこの設定を定式化し、モデルベースのアルゴリズムが追加のフィードバックを利用してよりサンプル効率のよい学習を行うことを示す。
論文 参考訳(メタデータ) (2020-05-07T22:35:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。