論文の概要: Where2Start: Leveraging initial States for Robust and Sample-Efficient
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2311.15089v1
- Date: Sat, 25 Nov 2023 18:00:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 22:09:29.563386
- Title: Where2Start: Leveraging initial States for Robust and Sample-Efficient
Reinforcement Learning
- Title(参考訳): where2start: 堅牢でサンプル効率のよい強化学習に初期状態を活用する
- Authors: Pouya Parsa, Raoof Zare Moayedi, Mohammad Bornosi, Mohammad Mahdi
Bejani
- Abstract要約: 勾配を計算し、次のアクションを選択する方法に焦点を当てた強化学習アルゴリズムは、エージェントのパフォーマンスを効果的に改善する。
本稿では,初期状態を選択するWhere2Startアルゴリズムを提案する。
実験の結果,Where2Startはサンプル効率を最大8倍改善できることがわかった。
- 参考スコア(独自算出の注目度): 1.1060425537315088
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The reinforcement learning algorithms that focus on how to compute the
gradient and choose next actions, are effectively improved the performance of
the agents. However, these algorithms are environment-agnostic. This means that
the algorithms did not use the knowledge that has been captured by trajectory.
This poses that the algorithms should sample many trajectories to train the
model. By considering the essence of environment and how much the agent learn
from each scenario in that environment, the strategy of the learning procedure
can be changed. The strategy retrieves more informative trajectories, so the
agent can learn with fewer trajectory sample. We propose Where2Start algorithm
that selects the initial state so that the agent has more instability in
vicinity of that state. We show that this kind of selection decreases number of
trajectories that should be sampled that the agent reach to acceptable reward.
Our experiments shows that Where2Start can improve sample efficiency up to 8
times. Also Where2Start can combined with most of state-of-the-art algorithms
and improve that robustness and sample efficiency significantly.
- Abstract(参考訳): 勾配の計算と次のアクションの選択に焦点を当てた強化学習アルゴリズムは、エージェントのパフォーマンスを効果的に改善する。
しかし、これらのアルゴリズムは環境に依存しない。
これは、アルゴリズムが軌道で捉えた知識を使わなかったことを意味する。
これは、アルゴリズムがモデルをトレーニングするために多くの軌跡をサンプリングすべきであることを示している。
環境の本質とエージェントがその環境の各シナリオからどの程度学習するかを考えることで、学習手順の戦略を変えることができる。
戦略はより情報的な軌道を回収するので、エージェントはより少ない軌道サンプルで学習することができる。
エージェントがその状態付近でより不安定になるように初期状態を選択するwhere2startアルゴリズムを提案する。
この種の選択は,エージェントが許容される報酬に到達するまでにサンプリングすべき軌跡の数を減少させる。
実験の結果,Where2Startはサンプル効率を最大8倍改善できることがわかった。
where2startは最先端のアルゴリズムの多くと組み合わせることで、堅牢性とサンプル効率を大幅に向上することができる。
関連論文リスト
- Meta-Learning from Learning Curves for Budget-Limited Algorithm Selection [11.409496019407067]
予算制限のシナリオでは、アルゴリズム候補を慎重に選択し、それを訓練するための予算を割り当てることが不可欠である。
本稿では,エージェントが十分に訓練されるまで待たずに,最も有望なアルゴリズムを学習する過程において,エージェントが選択しなければならない新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-10-10T08:09:58Z) - Representation Learning with Multi-Step Inverse Kinematics: An Efficient
and Optimal Approach to Rich-Observation RL [106.82295532402335]
既存の強化学習アルゴリズムは、計算的難易度、強い統計的仮定、最適なサンプルの複雑さに悩まされている。
所望の精度レベルに対して、レート最適サンプル複雑性を実現するための、最初の計算効率の良いアルゴリズムを提供する。
我々のアルゴリズムMusIKは、多段階の逆運動学に基づく表現学習と体系的な探索を組み合わせる。
論文 参考訳(メタデータ) (2023-04-12T14:51:47Z) - Backward Curriculum Reinforcement Learning [0.0]
現在の強化学習アルゴリズムは、前向きに生成された軌道を使ってエージェントを訓練する。
十分な探索から強化学習の価値を実現する一方で、このアプローチはサンプル効率を失う際のトレードオフにつながる。
本稿では,従来の前進路ではなく,後進路を用いてエージェントを訓練する新しい後進カリキュラム強化学習を提案する。
論文 参考訳(メタデータ) (2022-12-29T08:23:39Z) - Deep Active Ensemble Sampling For Image Classification [8.31483061185317]
アクティブラーニングフレームワークは、最も有益なデータポイントのラベル付けを積極的に要求することで、データアノテーションのコストを削減することを目的としている。
提案手法には、不確実性に基づく手法、幾何学的手法、不確実性に基づく手法と幾何学的手法の暗黙の組み合わせなどがある。
本稿では, サンプル選択戦略における効率的な探索・探索トレードオフを実現するために, 不確実性に基づくフレームワークと幾何学的フレームワークの両方の最近の進歩を革新的に統合する。
本フレームワークは,(1)正確な後続推定,(2)計算オーバーヘッドと高い精度のトレードオフの2つの利点を提供する。
論文 参考訳(メタデータ) (2022-10-11T20:20:20Z) - On the Convergence of Distributed Stochastic Bilevel Optimization
Algorithms over a Network [55.56019538079826]
バイレベル最適化は、幅広い機械学習モデルに適用されている。
既存のアルゴリズムの多くは、分散データを扱うことができないように、シングルマシンの設定を制限している。
そこで我々は,勾配追跡通信機構と2つの異なる勾配に基づく分散二段階最適化アルゴリズムを開発した。
論文 参考訳(メタデータ) (2022-06-30T05:29:52Z) - Gradient Descent, Stochastic Optimization, and Other Tales [8.034728173797953]
このチュートリアルは、勾配降下法と最適化法の形式的側面と非公式な側面の両方に対処することを避けない。
勾配降下は最適化を行う最も一般的なアルゴリズムの1つであり、機械学習タスクを最適化する最も一般的な方法である。
ディープニューラルネットワークでは、計算資源を節約し、サドルポイントから逃れるために、1つのサンプルまたはサンプルのバッチが続く勾配が使用される。
論文 参考訳(メタデータ) (2022-05-02T12:06:53Z) - MURAL: Meta-Learning Uncertainty-Aware Rewards for Outcome-Driven
Reinforcement Learning [65.52675802289775]
本研究では,不確かさを意識した分類器が,強化学習の難しさを解消できることを示す。
正規化最大度(NML)分布の計算法を提案する。
得られたアルゴリズムは、カウントベースの探索法と、報酬関数を学習するための先行アルゴリズムの両方に多くの興味深い関係を持つことを示す。
論文 参考訳(メタデータ) (2021-07-15T08:19:57Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - Towards Understanding the Behaviors of Optimal Deep Active Learning
Algorithms [19.65665942630067]
アクティブラーニング(AL)アルゴリズムは、モデルがデータ選択プロセスを導くため、より少ないデータでより良いパフォーマンスを達成できます。
alの最適形状についてはほとんど研究されていないため、研究者たちはモデルがどこが不足しているかを理解するのに役立つだろう。
我々は,この最適オラクルを探索し,いくつかのタスクで解析するシミュレーションアニーリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-12-29T22:56:42Z) - Policy Gradient for Continuing Tasks in Non-stationary Markov Decision
Processes [112.38662246621969]
強化学習は、マルコフ決定プロセスにおいて期待される累積報酬を最大化するポリシーを見つけることの問題を考える。
我々は、ポリシーを更新するために上昇方向として使用する値関数の偏りのないナビゲーション勾配を計算する。
ポリシー勾配型アルゴリズムの大きな欠点は、定常性の仮定が課せられない限り、それらがエピソジックなタスクに限定されていることである。
論文 参考訳(メタデータ) (2020-10-16T15:15:42Z) - Meta-learning with Stochastic Linear Bandits [120.43000970418939]
我々は、よく知られたOFULアルゴリズムの正規化バージョンを実装するバンディットアルゴリズムのクラスを考える。
我々は,タスク数の増加とタスク分散の分散が小さくなると,タスクを個別に学習する上で,我々の戦略が大きな優位性を持つことを理論的および実験的に示す。
論文 参考訳(メタデータ) (2020-05-18T08:41:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。